單節點集群

單節點集群是由Apache Spark驅動和不包含Spark worker組成的集群。單節點集群支持Spark作業和所有Spark數據源,包括三角洲湖.標準集群至少需要一個Spark worker來運行Spark作業。

單節點集群有助於:

  • 使用Spark加載和保存數據的單節點機器學習工作負載

  • 輕量級探索性數據分析

創建單節點集群

若要創建單節點集群,請選擇單獨的節點按鈕時配置集群

單節點集群屬性

單節點集群具有以下屬性:

  • 本地運行Spark。

  • 驅動程序同時充當主節點和輔助節點,沒有輔助節點。

  • 在集群中每個邏輯核心生成一個執行程序線程,減去一個驅動程序內核。

  • 所有stderrstdout,log4j日誌輸出保存在驅動日誌中。

  • 單節點集群不能轉換為多節點集群。

限製

  • 大規模的數據處理將耗盡單節點集群的資源。對於這些工作負載,Databricks建議使用多節點集群。

  • 單節點集群不是為共享而設計的。為了避免資源衝突,Databricks建議在必須共享集群時使用多節點集群。

  • 一個多節點集群不能擴展到0個工人。改用單節點集群。

  • 單節點集群不兼容進程隔離。

  • 單機集群不開啟GPU調度功能。

  • 在單節點集群中,Spark無法讀取帶UDT列的Parquet文件。錯誤信息如下:

    Spark驅動異常停止,正在重新啟動。您的筆記本將自動重新連接。

    要解決這個問題,禁用本機Parquet讀取器:

    火花相依“spark.databricks.io.parquet.nativeReader.enabled”

REST API

您可以使用集群API來創建單節點集群

單節點集群策略

請注意

穀歌雲上的數據庫不支持集群策略。

集群政策簡化單節點集群的集群配置。

考慮一個數據科學團隊的例子,該團隊的成員沒有創建集群的權限。管理員可以創建集群策略,授權團隊成員使用創建最大數量的Single Node集群集群政策

  1. 創建一個遊泳池

    1. 最大容量10

    2. 自動駕駛儀的選擇,使本地存儲啟用自動伸縮

    3. 實例類型單節點集群

    4. 選擇Databricks版本。Databricks建議盡可能使用最新版本。

    5. 點擊創建

    將出現池的屬性頁麵。記錄新創建的池的池ID和實例類型ID頁。

  2. 創建一個集群政策

    • 從池屬性中設置池ID和實例類型ID。

    • 指定約束根據需要。

  3. 將集群策略授予團隊成員。你可以使用管理用戶、服務主體和組簡化用戶管理。

單節點作業集群策略

請注意

穀歌雲上的數據庫不支持集群策略。

若要為作業設置集群策略,可以定義類似的集群策略。設置cluster_type.type固定cluster_type.value工作.刪除對auto_termination_minutes