單節點簇

單個節點群集是一個由Apache Spark驅動程序組成的群集,沒有火花工人。單個節點群集支持火花作業和所有火花數據源,包括三角洲湖。標準群集需要至少一個Spark Worker來運行火花作業。

單節點簇對:

  • 單節點機器學習工作負載,使用火花加載和保存數據

  • 輕型探索性數據分析

創建一個節點群

要創建一個單個節點群集,請設置集群模式單節點當你配置群集

單節點群集模式

單節點群集屬性

單個節點群集具有以下屬性:

  • 在本地運行火花。

  • 駕駛員既是主人又有工人,沒有工人節點。

  • 在群集中衍生一個執行器線程的邏輯核心,減去驅動程序的核心。

  • 全部stderr,,,,Stdout, 和log4j日誌輸出保存在驅動程序日誌中。

  • 單個節點群集不能轉換為標準群集。要使用標準群集,請創建群集並將筆記本附加到其上。

限製

  • 大規模數據處理將耗盡單個節點群集上的資源。對於這些工作負載,Databricks建議使用標準模式群集。

  • 單節點簇的設計並非被設計為共享。為了避免資源衝突,數據助理建議在必須共享群集時使用標準模式群集。

  • 標準模式群集不能縮放到0個工人。改用單個節點群集。

  • 單節點簇與過程隔離不兼容。

  • 在單節點簇上未啟用GPU調度。

  • 在單個節點群集上,Spark無法使用UDT列讀取Parquet文件。以下錯誤消息結果:

    火花司機已經意外停下來,正在重新開始。您的筆記本將自動重新連接。

    要解決此問題,請禁用本地鑲木讀器:

    火花conf((“ spark.databricks.io.parquet.nativereader.enabled”,,,,錯誤的

REST API

您可以將簇API用於創建一個節點群

單節點群集策略

集群策略簡化單節點簇的群集配置。

考慮一個數據科學團隊的示例,其成員無權創建集群。管理員可以創建集群策略,該策略授權團隊成員創建最大數量的單節點群集遊泳池集群策略

  1. 創造一個水池

    1. 最大容量10

    2. 自動駕駛選項, 使能夠啟用了本地存儲的自動啟用

    3. 實例類型單節點群集

    4. 選擇Databricks版本。Databricks建議(如果可能)使用最新版本。

    5. 點擊創造

    出現池的屬性頁麵。記下新創建的池的池ID和實例類型ID頁麵。

  2. 創建一個集群策略

    • 從池從池屬性設置池ID和實例類型ID。

    • 指定約束如所須。

  3. 將集群政策授予團隊成員。您可以使用管理用戶和組簡化用戶管理。

    {“ spark_conf.spark.databricks.cluster.profile”{“類型”“固定的”,,,,“價值”“單烯筆”,,,,“隱”真的},,“ instance_pool_id”{“類型”“固定的”,,,,“價值”“ singlenodepoolid1”,,,,“隱”真的},,“ spark_version”{“類型”“固定的”,,,,“價值”“ 7.3.x-cpu-ml-scala2.12”,,,,“隱”真的},,“自動化_minutes”{“類型”“固定的”,,,,“價值”120,,,,“隱”真的},,“ num_workers”{“類型”“固定的”,,,,“價值”0,,,,“隱”真的},,“ docker_image.url”{“類型”“禁止”,,,,“隱”真的}}

單節點作業集群策略

要設置作業集群策略,您可以定義類似的集群策略。設置cluster_type.type固定的cluster_type.value工作。刪除所有引用auto_termination_minutes

{“ cluster_type”{“類型”“固定的”,,,,“價值”“工作”},,“ spark_conf.spark.databricks.cluster.profile”{“類型”“固定的”,,,,“價值”“單烯筆”,,,,“隱”真的},,“ instance_pool_id”{“類型”“固定的”,,,,“價值”“ singlenodepoolid1”,,,,“隱”真的},,“ num_workers”{“類型”“固定的”,,,,“價值”0,,,,“隱”真的},,“ spark_version”{“類型”“固定的”,,,,“價值”“ 7.3.x-cpu-ml-scala2.12”,,,,“隱”真的},,“ docker_image.url”{“類型”“禁止”,,,,“隱”真的}}