單節點集群
單節點集群是由Apache Spark驅動和不包含Spark worker組成的集群。單節點集群支持Spark作業和所有Spark數據源,包括三角洲湖.標準集群至少需要一個Spark worker來運行Spark作業。
單節點集群有助於:
使用Spark加載和保存數據的單節點機器學習工作負載
輕量級探索性數據分析
創建單節點集群
若要創建單節點集群,請選擇單獨的節點按鈕時配置集群.
單節點集群屬性
單節點集群具有以下屬性:
本地運行Spark。
驅動程序同時充當主節點和輔助節點,沒有輔助節點。
在集群中每個邏輯核心生成一個執行程序線程,減去一個驅動程序內核。
所有
stderr
,stdout
,log4j
日誌輸出保存在驅動日誌中。單節點集群不能轉換為多節點集群。
限製
大規模的數據處理將耗盡單節點集群的資源。對於這些工作負載,Databricks建議使用多節點集群。
單節點集群不是為共享而設計的。為了避免資源衝突,Databricks建議在必須共享集群時使用多節點集群。
一個多節點集群不能擴展到0個工人。改用單節點集群。
單節點集群不兼容進程隔離。
單機集群不開啟GPU調度功能。
在單節點集群中,Spark無法讀取帶UDT列的Parquet文件。錯誤信息如下:
Spark驅動異常停止,正在重新啟動。您的筆記本將自動重新連接。
要解決這個問題,禁用本機Parquet讀取器:
火花.相依.集(“spark.databricks.io.parquet.nativeReader.enabled”,假)
REST API
您可以使用集群API來創建單節點集群.
單節點集群策略
請注意
穀歌雲上的數據庫不支持集群策略。
集群政策簡化單節點集群的集群配置。
考慮一個數據科學團隊的例子,該團隊的成員沒有創建集群的權限。管理員可以創建集群策略,授權團隊成員使用創建最大數量的Single Node集群池和集群政策:
創建一個遊泳池:
集最大容量來
10
.在自動駕駛儀的選擇,使本地存儲啟用自動伸縮.
集實例類型來單節點集群.
選擇Databricks版本。Databricks建議盡可能使用最新版本。
點擊創建.
將出現池的屬性頁麵。記錄新創建的池的池ID和實例類型ID頁。
創建一個集群政策:
從池屬性中設置池ID和實例類型ID。
指定約束根據需要。
將集群策略授予團隊成員。你可以使用管理用戶、服務主體和組簡化用戶管理。