單節點簇
單個節點群集是一個由Apache Spark驅動程序組成的群集,沒有火花工人。單個節點群集支持火花作業和所有火花數據源,包括三角洲湖。標準群集需要至少一個Spark Worker來運行火花作業。
單節點簇對:
單節點機器學習工作負載,使用火花加載和保存數據
輕型探索性數據分析
單節點群集屬性
單個節點群集具有以下屬性:
在本地運行火花。
駕駛員既是主人又有工人,沒有工人節點。
在群集中衍生一個執行器線程的邏輯核心,減去驅動程序的核心。
全部
stderr
,,,,Stdout
, 和log4j
日誌輸出保存在驅動程序日誌中。單個節點群集不能轉換為標準群集。要使用標準群集,請創建群集並將筆記本附加到其上。
限製
大規模數據處理將耗盡單個節點群集上的資源。對於這些工作負載,Databricks建議使用標準模式群集。
單節點簇的設計並非被設計為共享。為了避免資源衝突,數據助理建議在必須共享群集時使用標準模式群集。
標準模式群集不能縮放到0個工人。改用單個節點群集。
單節點簇與過程隔離不兼容。
在單節點簇上未啟用GPU調度。
在單個節點群集上,Spark無法使用UDT列讀取Parquet文件。以下錯誤消息結果:
火花司機已經意外停下來,正在重新開始。您的筆記本將自動重新連接。
要解決此問題,請禁用本地鑲木讀器:
火花。conf。放((“ spark.databricks.io.parquet.nativereader.enabled”,,,,錯誤的)
REST API
您可以將簇API用於創建一個節點群。
單節點群集策略
集群策略簡化單節點簇的群集配置。
考慮一個數據科學團隊的示例,其成員無權創建集群。管理員可以創建集群策略,該策略授權團隊成員創建最大數量的單節點群集遊泳池和集群策略:
創造一個水池:
放最大容量到
10
。在自動駕駛選項, 使能夠啟用了本地存儲的自動啟用。
放實例類型到單節點群集。
選擇Databricks版本。Databricks建議(如果可能)使用最新版本。
點擊創造。
出現池的屬性頁麵。記下新創建的池的池ID和實例類型ID頁麵。
創建一個集群策略:
從池從池屬性設置池ID和實例類型ID。
指定約束如所須。
將集群政策授予團隊成員。您可以使用管理用戶和組簡化用戶管理。
{“ spark_conf.spark.databricks.cluster.profile”:{“類型”:“固定的”,,,,“價值”:“單烯筆”,,,,“隱”:真的},,“ instance_pool_id”:{“類型”:“固定的”,,,,“價值”:“ singlenodepoolid1”,,,,“隱”:真的},,“ spark_version”:{“類型”:“固定的”,,,,“價值”:“ 7.3.x-cpu-ml-scala2.12”,,,,“隱”:真的},,“自動化_minutes”:{“類型”:“固定的”,,,,“價值”:120,,,,“隱”:真的},,“ num_workers”:{“類型”:“固定的”,,,,“價值”:0,,,,“隱”:真的},,“ docker_image.url”:{“類型”:“禁止”,,,,“隱”:真的}}
單節點作業集群策略
要設置作業集群策略,您可以定義類似的集群策略。設置cluster_type.type
到固定的
和cluster_type.value
到工作
。刪除所有引用auto_termination_minutes
。
{“ cluster_type”:{“類型”:“固定的”,,,,“價值”:“工作”},,“ spark_conf.spark.databricks.cluster.profile”:{“類型”:“固定的”,,,,“價值”:“單烯筆”,,,,“隱”:真的},,“ instance_pool_id”:{“類型”:“固定的”,,,,“價值”:“ singlenodepoolid1”,,,,“隱”:真的},,“ num_workers”:{“類型”:“固定的”,,,,“價值”:0,,,,“隱”:真的},,“ spark_version”:{“類型”:“固定的”,,,,“價值”:“ 7.3.x-cpu-ml-scala2.12”,,,,“隱”:真的},,“ docker_image.url”:{“類型”:“禁止”,,,,“隱”:真的}}