配置集群

本文解釋了在創建和編輯Databricks集群時可用的配置選項。它著重於使用UI創建和編輯集群。其他方法請參見集群CLI集群API 2.0,磚起程拓殖的提供者

有關如何確定配置選項的組合最適合您的需要的幫助,請參閱集群配置最佳實踐

本文描述了遺留的cluster UI。有關預覽UI的詳細信息,請參見Databricks集群UI更改

創建集群

集群政策

一個集群政策限製基於一組規則配置集群的能力。策略規則限製了可用於創建集群的屬性或屬性值。集群策略的acl限製了對特定用戶和組的使用,從而限製了在創建集群時可以選擇哪些策略。

如果需要配置集群策略,請選擇政策下拉。

選擇集群政策

請注意

如果沒有政策在工作區中創建,政策下拉菜單不顯示。

如果你有:

  • 集群創建權限,您可以選擇不受限製的策略並創建完全可配置的集群。的不受限製的策略不限製任何集群屬性或屬性值。

  • 既可以創建集群權限,又可以訪問集群策略,可以選擇不受限製的策略和您可以訪問的策略。

  • 僅訪問集群策略,您可以選擇具有訪問權限的策略。

集群模式

Databricks支持三種集群模式:Standard、High Concurrency和單獨的節點.集群模式默認為“標準模式”。

重要的

  • 如果您的工作空間被分配給統一目錄metastore、High Concurrency集群不可用。相反,你使用訪問模式確保訪問控製的完整性並執行強隔離保證。另請參閱創建一個可以訪問Unity Catalog的集群

  • 創建成功後,不能切換集群模式。如果需要不同的集群模式,則必須創建一個新的集群。

請注意

集群配置包括自動終止設置的默認值取決於集群模式:

  • 標準集群和單節點集群默認在120分鍾後自動終止。

  • 高並發的集群默認情況下自動終止。

標準的集群

對於單個用戶,建議使用標準集群。標準集群可以運行用任何語言開發的工作負載:Python、SQL、R和Scala。

高並發的集群

High Concurrency集群是一種托管雲資源。High Concurrency集群的主要好處是,它們提供了細粒度的共享,以實現最大的資源利用率和最小的查詢延遲。

高並發集群可以運行用SQL、Python和r開發的工作負載。高並發集群的性能和安全性是通過在單獨的進程中運行用戶代碼來提供的,這在Scala中是不可能的。

此外,隻有High Concurrency集群支持訪問控製表

若要創建高並發集群,請設置集群模式高並發

高並發集群模式

有關如何使用Clusters API創建高並發集群的示例,請參見高並發集群示例

單節點集群

單節點集群沒有worker,在驅動節點上運行Spark作業。

相比之下,標準集群需要至少有一個Spark工作節點除驅動節點外,還用於執行Spark作業。

若要創建單節點集群,請設置集群模式單獨的節點

單節點集群模式

要了解有關使用單節點集群的更多信息,請參見單節點集群

數據沿襲

預覽

數據沿襲在公共預覽

要創建捕獲數據沿襲的集群,請進入集群配置頁麵,執行以下步驟:

請注意

要使用作業集群捕獲沿襲作為作業運行的一部分,請確保使用以下配置配置作業集群。

  1. 訪問模式中,選擇單用戶共享

    • 單用戶:支持多種語言的集群,但隻能由一個指定的用戶使用。

    • 共享:可由多個用戶共享的集群。隻支持SQL和Python工作負載。

  2. 磚的運行時版本的,選擇Databricks Runtime 11.1或更高版本。

  3. 單擊高級選項切換。

  4. 單擊火花選項卡。

  5. 火花配置文本框中,輸入以下配置:

    spark.databricks.dataLineage.enabled真實
  6. 點擊創建集群

為了縮短集群啟動時間,可以將集群附加到預定義的空閑實例的,用於驅動程序和工作節點。集群是使用池中的實例創建的。如果池沒有足夠的空閑資源來創建請求的驅動程序或工作節點,則池通過從實例提供程序分配新實例來擴展。當連接的集群終止時,它使用的實例將返回到池中,並可由不同的集群重用。

如果為工作節點選擇了池,而不為驅動節點選擇池,則驅動節點從工作節點配置繼承池。

重要的

如果您試圖為驅動程序節點選擇一個池,而不為工作節點選擇一個池,則會發生錯誤,您的集群不會創建。這個需求避免了驅動節點必須等待工作節點被創建的情況,反之亦然。

看到以了解有關在Databricks中使用池的更多信息。

磚運行時

Databricks運行時是一組運行在您的集群.所有Databricks運行時都包括Apache Spark,並添加了提高可用性、性能和安全性的組件和更新。有關詳細信息,請參見磚運行時

數據庫中提供了幾種類型的運行時和這些運行時類型的幾種版本磚的運行時版本的下拉菜單。

選擇運行時版本

光子加速

光子是否可用於正在運行的集群Databricks Runtime 9.1 LTS及以上。

要啟用光子加速,請選擇使用光子加速複選框。

如果需要,您可以在工作者類型和驅動程序類型下拉列表中指定實例類型。

你可以在火花UI.以下截圖顯示查詢詳細信息DAG。在DAG中有兩個Photon的指示。首先,光子運算符以" Photon "開頭,例如,PhotonGroupingAgg.其次,在DAG中,光子運算符和階段是桃色的,而非光子運算符和階段是藍色的。

光子DAG

碼頭工人的圖片

對於某些Databricks Runtime版本,您可以在創建集群時指定Docker映像。示例用例包括庫定製、不變的黃金容器環境和Docker CI/CD集成。

您還可以使用Docker映像在具有GPU設備的集群上創建自定義深度學習環境。

說明,請參閱使用Databricks容器服務定製容器而且GPU集群上的Databricks Container服務

集群節點類型

集群由一個驅動節點和零個或多個工作節點組成。

您可以為驅動程序節點和工作節點選擇單獨的雲提供程序實例類型,不過在默認情況下,驅動程序節點使用與工作節點相同的實例類型。不同的實例類型適用於不同的用例,例如內存密集型或計算密集型工作負載。

司機節點

驅動節點維護附加到集群的所有筆記本的狀態信息。驅動節點還維護SparkContext並解釋您在集群上的筆記本或庫中運行的所有命令,並運行與Spark執行程序協調的Apache Spark主程序。

驅動節點類型的默認值與工作節點類型相同。如果您打算這樣做,可以選擇具有更多內存的較大驅動程序節點類型收集()收集Spark員工的大量數據,並在筆記本上進行分析。

提示

由於驅動節點維護所附筆記本的所有狀態信息,請確保將未使用的筆記本從驅動節點分離。

工作者節點

Databricks工作節點運行Spark執行程序和集群正常運行所需的其他服務。當您使用Spark分配工作負載時,所有的分布式處理都發生在工作節點上。Databricks為每個工作節點運行一個執行程序;因此條款遺囑執行人而且工人在Databricks體係結構的上下文中可以互換使用。

提示

要運行Spark作業,至少需要一個工作節點。如果集群中沒有worker,可以在驅動節點上執行非Spark命令,但是Spark命令會失敗。

請注意

Databricks啟動帶有兩個私有IP地址的工作節點。節點的主私網IP地址用於承載Databricks內部流量。備私網IP地址用於Spark容器集群內通信。該模型允許Databricks在同一工作空間中的多個集群之間提供隔離。

GPU實例類型

對於需要高性能的計算挑戰任務,比如那些與深度學習相關的任務,Databricks支持使用圖形處理單元(gpu)加速的集群。有關更多信息,請參見GPU-enabled集群

AWS gravon實例類型

預覽

此功能已在公共預覽

Databricks支持使用AWS gravon處理器的集群。基於arm的AWS gravon實例是由AWS設計的,以提供比當前基於x86的同類實例更好的價格性能。看到AWS Graviton-enabled集群

集群大小和自動伸縮

在創建Databricks集群時,可以為集群提供固定數量的工作人員,也可以為集群提供最小和最大數量的工作人員。

當您提供固定大小的集群時,Databricks確保您的集群具有指定數量的工作人員。當您為工作人員的數量提供一個範圍時,Databricks將選擇運行作業所需的適當數量的工作人員。這被稱為自動定量

通過自動伸縮,Databricks可以根據您的工作特性動態地重新分配工作人員。管道的某些部分可能比其他部分更需要計算,Databricks會在您的工作的這些階段自動添加額外的工作人員(並在不再需要時刪除他們)。

自動伸縮使實現高集群利用率變得更容易,因為您不需要提供集群來匹配工作負載。這尤其適用於需求隨時間而變化的工作負載(比如在一天的過程中探索數據集),但它也適用於一次性較短的、配置需求未知的工作負載。因此,自動縮放提供了兩個優點:

  • 與固定大小的未配置的集群相比,工作負載可以運行得更快。

  • 與靜態大小的集群相比,自動伸縮集群可以降低總體成本。

根據集群和工作負載的恒定大小,自動伸縮可以同時提供這兩種好處中的一種或兩種。當雲提供商終止實例時,集群大小可以低於所選擇的最小工作人員數量。在這種情況下,Databricks不斷嚐試重新提供實例,以維持最低的工作人員數量。

請注意

無法使用自動縮放功能spark-submit就業機會。

如何自動定量的行為

  • 從最小到最大隻需2步。

  • 即使集群不是空閑的,也可以通過查看shuffle文件狀態來縮小。

  • 根據當前節點的百分比向下擴展。

  • 在作業集群上,如果集群在過去40秒內未得到充分利用,則向下擴展。

  • 在通用集群上,如果集群在過去150秒內未得到充分利用,則向下擴展。

  • spark.databricks.aggressiveWindowDownSSpark配置屬性以秒為單位指定集群進行降級決策的頻率。增加該值將導致集群的擴展速度變慢。最大值為600。

啟用和配置自動伸縮

要允許Databricks自動調整集群的大小,您需要為集群啟用自動伸縮,並提供工作人員的最小和最大範圍。

  1. 啟用自動定量。

    • 通用集群—在“創建集群”頁麵,選擇啟用自動定量複選框的自動駕駛儀的選擇箱:

      為交互集群啟用自動伸縮
    • 作業集群—在“配置集群”頁麵,選擇啟用自動定量複選框的自動駕駛儀的選擇箱:

      為作業集群啟用自動伸縮
  2. 配置最小和最大工人數。

    配置最小和最大工人

    當集群正在運行時,集群詳細信息頁麵將顯示已分配工作人員的數量。您可以將分配的工作者數量與工作者配置進行比較,並根據需要進行調整。

重要的

如果您正在使用實例池

  • 請確保請求的群集大小小於或等於最小空閑實例數在遊泳池裏。如果它更大,集群啟動時間將等同於不使用池的集群。

  • 請確保最大群集大小小於或等於最大容量的池。如果它更大,創建集群將失敗。

自動定量的例子

如果您將靜態集群重新配置為自動伸縮集群,Databricks將立即在最小和最大邊界內調整集群的大小,然後開始自動伸縮。作為一個例子,下表演示了如果您將集群重新配置為在5到10個節點之間自動伸縮,那麼具有一定初始大小的集群將會發生什麼。

初始大小

重新配置後尺寸

6

6

12

10

3.

5

本地磁盤加密

預覽

此功能已在公共預覽

用於運行集群的某些實例類型可能具有本地連接的磁盤。數據庫可以在這些本地連接的磁盤上存儲隨機數據或臨時數據。要確保對所有存儲類型的所有靜止數據(包括臨時存儲在集群本地磁盤上的shuffle數據)進行加密,可以啟用本地磁盤加密。

重要的

由於向本地卷讀寫加密數據對性能的影響,您的工作負載可能運行得更慢。

當啟用本地磁盤加密時,Databricks會在本地生成一個加密密鑰,該密鑰對每個集群節點都是惟一的,用於加密存儲在本地磁盤上的所有數據。密鑰的作用域對於每個集群節點都是本地的,並且與集群節點本身一起銷毀。在其生命周期內,密鑰駐留在內存中進行加密和解密,並加密存儲在磁盤上。

要啟用本地磁盤加密,必須使用集群API 2.0.在創建或編輯集群時,設置:

“enable_local_disk_encryption”真正的

看到創建而且編輯在集群API參考中有如何調用這些API的例子。

下麵是一個啟用本地磁盤加密的集群創建調用的示例:

“cluster_name”“my-cluster”“spark_version”“7.3.x-scala2.12”“node_type_id”“r3.xlarge”“enable_local_disk_encryption”真正的“spark_conf”“spark.speculation”真正的},“num_workers”25

安全模式

如果您的工作空間被分配給統一目錄亞Metastore,你用安全模式而不是高並發集群模式確保訪問控製的完整性並執行強隔離保證。高並發集群模式在Unity Catalog中不可用。

高級選項,在以下集群安全模式中進行選擇:

  • 沒有一個:沒有隔離。不強製工作空間-本地表訪問控製或憑據傳遞。無法訪問Unity Catalog數據。

  • 單用戶:隻能由單個用戶使用(默認為創建集群的用戶)。其他用戶無法附加到集群。當從群集中訪問視圖時單用戶安全模式下,視圖以用戶的權限執行。單用戶集群支持使用Python、Scala和R. Init腳本、庫安裝和DBFS FUSE掛載的工作負載。自動化作業應該使用單用戶集群。

  • 用戶隔離:可由多個用戶共享。隻支持SQL工作負載。禁用庫安裝、初始化腳本和DBFS FUSE掛載,以強製集群用戶之間的嚴格隔離。

  • 僅表ACL(遺留):強製工作空間-本地表訪問控製,但不能訪問Unity Catalog數據。

  • 隻透傳(遺留):強製工作空間-本地憑據傳遞,但不能訪問Unity Catalog數據。

Unity Catalog工作負載支持的唯一安全模式是單用戶而且用戶隔離

有關更多信息,請參見什麼是集群訪問模式?

AWS的配置

在配置集群的AWS實例時,可以選擇可用分區、最大現貨價格、EBS卷類型和大小以及實例配置文件。指定配置,

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 在該頁的底部,單擊實例選項卡。

    實例的選項卡

可用性區域

如果您的組織在特定的可用分區中購買了保留實例,那麼為集群選擇一個特定的可用分區(AZ)是非常有用的。閱讀更多關於AWS可用性區域

自動可用分區(Auto-AZ)

您可以配置集群,使其根據工作區子網中的可用ip自動選擇可用分區,該特性稱為“Auto-AZ”。你必須使用集群API啟用Auto-AZ,設置awsattributes.zone_id“汽車”.如果AWS返回容量不足的錯誤,Auto-AZ會在其他可用分區中重試。

現貨實例

您可以指定是否使用現貨實例,以及在啟動現貨實例時使用的最大現貨價格(按需價格的百分比)。缺省情況下,最大限價為按需限價的100%。看到AWS現貨價格

EBS卷

本節介紹工作節點的默認EBS卷設置、如何添加shuffle卷以及如何配置集群以使Databricks自動分配EBS卷。

要配置EBS卷,請單擊實例選項卡中選擇一個選項EBS卷類型下拉列表。

默認EBS卷

Databricks為每個工作節點提供EBS卷如下:

  • 一個30gb加密的EBS實例根卷,僅供主機操作係統和Databricks內部服務使用。

  • Spark工作者使用的一個150gb加密的EBS容器根卷。承載Spark服務和日誌。

  • (僅適用於HIPAA)一個75 GB加密的EBS工作日誌卷,用於存儲Databricks內部服務的日誌。

添加EBS shuffle卷

如果需要添加shuffle卷,選擇通用SSD在“EBS卷類型”下拉列表中:

EBS卷類型

默認情況下,Spark shuffle輸出到實例本地磁盤。對於沒有本地磁盤的實例類型,或者如果希望增加Spark shuffle存儲空間,可以指定額外的EBS卷。當運行產生大量shuffle輸出的Spark作業時,這對於防止磁盤空間不足的錯誤特別有用。

Databricks為按需和現場實例加密這些EBS卷。閱讀更多關於AWS EBS卷

可選地,使用客戶管理的密鑰加密Databricks EBS卷

您可以選擇使用客戶管理的密鑰加密集群EBS卷。

看到工作空間存儲的客戶管理鍵

AWS EBS限製

確保您的AWS EBS限製足夠高,以滿足所有集群中所有工作者的運行時需求。有關默認EBS限製以及如何更改這些限製的信息,請參見Amazon彈性塊存儲(EBS)限製

AWS EBS SSD卷類型

您可以為AWS EBS SSD卷類型選擇gp2或gp3。要做到這一點,看管理SSD存儲.Databricks建議您切換到gp3,因為它比gp2節省成本。有關gp2和gp3的技術信息,請參見Amazon EBS卷類型

自動定量本地存儲

如果不希望在創建集群時分配固定數量的EBS卷,請使用自動伸縮本地存儲。通過自動伸縮本地存儲,Databricks可以監視集群Spark worker上可用的空閑磁盤空間量。如果某個工作者的磁盤空間開始過低,Databricks會在該工作者的磁盤空間耗盡之前自動將一個新的EBS卷掛載到該工作者。每個實例(包括實例的本地存儲)所附加的EBS卷的總磁盤空間不超過5 TB。

若要配置自動伸縮存儲,請選擇啟用自動伸縮本地存儲在“自動駕駛選項”框中:

啟用自動伸縮本地存儲

隻有當實例返回給AWS時,才會卸載附加到實例的EBS卷。也就是說,隻要實例是正在運行的集群的一部分,EBS卷就不會與實例分離。為了減少EBS的使用,Databricks建議在配置了的集群中使用此特性AWS gravon實例類型自動終止

請注意

Databricks使用吞吐量優化HDD (st1)擴展實例的本地存儲。的默認AWS容量限製這些卷的價格是20 xb。為了避免達到此限製,管理員應該根據自己的使用需求請求增加此限製。

請注意

如果您在2.44版本之前(即2017年4月27日之前)創建了Databricks帳戶,並希望使用自動伸縮本地存儲(在默認情況下啟用)高並發的集群),您必須為IAM角色添加卷權限或創建帳戶時使用的密鑰。特別是,您必須添加權限ec2: AttachVolumeec2: CreateVolumeec2: DeleteVolume,ec2: DescribeVolumes.有關權限的完整列表以及如何更新您現有IAM角色或密鑰的說明,請參見創建跨帳戶IAM角色

實例配置文件

要在不使用AWS密鑰的情況下安全地訪問AWS資源,可以使用實例概要啟動Databricks集群。看到使用實例配置文件安全訪問S3桶有關如何創建和配置實例概要文件的信息。一旦你創建了一個實例概要文件,你可以在實例概要文件下拉列表中選擇它:

實例配置文件

請注意

一旦使用實例概要啟動集群,任何對該集群具有附加權限的人都可以訪問由該角色控製的底層資源。為了防止不必要的訪問,您可以使用集群訪問控製限製對集群的權限。

火花配置

要微調Spark作業,您可以提供定製火花配置屬性在集群配置中。

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 單擊火花選項卡。

    火花配置

    火花配置,以每行一個鍵值對的形式輸入配置屬性。

配置集群時使用集群API 2.0,設置“Spark”屬性spark_conf字段創建集群請求編輯集群請求

若要設置所有集群的Spark屬性,請創建一個全球init腳本

dbutilsfs“dbfs: /磚/ init / set_spark_params.sh”"""| # !/bin/bash|貓| < < EOF的> / conf / 00-custom-spark-driver-defaults.conf /磚/驅動程序|(司機){|“spark.sql.sources。partitionOverwriteMode”=“動態”|}| EOF"""stripMargin真正的

從秘密中檢索Spark配置屬性

Databricks建議將密碼等敏感信息存儲在秘密而不是明文。要在Spark配置中引用一個秘密,請使用以下語法:

火花。<屬性名>{{秘密/ < scope-name > / <秘密名字>}}

例如,設置Spark配置屬性稱為密碼存儲的秘密的值秘密/ acme_app /密碼

火花。密碼{{秘密/ acme-app /密碼}}

有關更多信息,請參見用於在Spark配置屬性或環境變量中引用秘密的語法

環境變量

您可以配置可以從中訪問的自定義環境變量init腳本在集群上運行。Databricks還提供預定義的環境變量你可以在初始化腳本中使用。您不能重寫這些預定義的環境變量。

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 單擊火花選項卡。

  3. 中設置環境變量環境變量字段。

    環境變量字段

方法還可以設置環境變量spark_env_vars字段創建集群請求編輯集群請求集群API端點。

集群的標簽

集群標記允許您輕鬆地監視組織中各個組使用的雲資源的成本。在創建集群時,可以將標記指定為鍵-值對,Databricks將這些標記應用於虛擬機和磁盤卷等雲資源DBU使用報告

對於從池啟動的集群,自定義集群標記隻應用於DBU使用情況報告,而不會傳播到雲資源。

有關池和集群標記類型如何協同工作的詳細信息,請參見使用集群和池標記監視使用情況

為了方便起見,Databricks為每個集群應用了四個默認標記:供應商創造者ClusterName,ClusterId

此外,在作業集群上,Databricks應用兩個默認標記:RunName而且JobId

在Databricks SQL使用的資源上,Databricks還應用默認標記SqlWarehouseId

警告

不使用鍵分配自定義標記的名字一個集群。每個集群都有一個標記的名字該值由Databricks設置。如果您更改與鍵相關聯的值的名字,該集群將無法被Databricks跟蹤。因此,集群在變為空閑狀態後可能不會被終止,並將繼續產生使用成本。

您可以在創建集群時添加自定義標記。配置集群標簽。

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 在該頁的底部,單擊標簽選項卡。

    標簽選項卡
  3. 為每個自定義標記添加鍵值對。您最多可以添加45個自定義標記。

有關更多細節,請參見使用集群和池標記監視使用情況

實施強製性的標簽

為了確保在創建集群時總是填充特定的標簽,你可以應用一個特定的IAM策略到你的帳戶的主IAM角色(在帳戶設置時創建的那個;如果需要訪問,請聯係AWS管理員)。IAM策略應該包括explicit否認聲明用於強製標記鍵和可選值。創建集群失敗如果沒有提供包含允許值之一的必需標記。

例如,如果您想強製執行部門而且項目標簽,前者隻允許指定的值,後者允許一個自由形式的非空值,你可以應用如下的IAM策略:

“版本”“2012-10-17”“聲明”“席德”“MandateLaunchWithTag1”“效應”“否認”“行動”“ec2: RunInstances”“ec2: CreateTags”],“資源”“攻擊:aws: ec2:地區:accountId:實例/ *”“條件”“StringNotEqualsIgnoreCase”“aws: RequestTag /部門”“Deptt1”“Deptt2”“Deptt3”},“席德”“MandateLaunchWithTag2”“效應”“否認”“行動”“ec2: RunInstances”“ec2: CreateTags”],“資源”“攻擊:aws: ec2:地區:accountId:實例/ *”“條件”“StringNotLike”“aws: RequestTag /項目”"?*”

這兩個ec2: RunInstances而且ec2: CreateTags每個標記都需要操作,以有效覆蓋場景,在這些場景中,集群中隻有按需實例、隻有現場實例或兩者都有。

提示

Databricks建議為每個標記添加單獨的策略語句。整個策略可能會變得很長,但是更容易調試。看到IAM Policy條件操作符參考獲取可在策略中使用的操作符列表。

請注意

IAM策略導致集群創建錯誤編碼錯誤消息開始:

雲提供程序啟動失敗:在設置集群時遇到雲提供程序錯誤。

之所以對消息進行編碼,是因為授權狀態的詳細信息可能構成請求操作的用戶不應看到的特權信息。看到DecodeAuthorizationMessage API(或CLI)查閱如何解碼這類訊息的資料。

對集群的SSH訪問

請注意

您不能使用SSH登錄到具有安全集群連接啟用。

SSH允許遠程登錄Apache Spark集群進行高級故障排除和安裝自定義軟件。

有關相關功能,請參見網絡終端

本節介紹如何配置AWS帳戶,以啟用使用您的公鑰對集群的入口訪問,以及如何打開到集群節點的SSH連接。

配置安全組

您必須更新AWS帳戶中的Databricks安全組,以提供對您將從其發起SSH連接的IP地址的入站訪問權。您可以為單個IP地址設置此參數,也可以提供代表整個辦公室IP範圍的範圍。

  1. 在AWS控製台中,找到Databricks安全組。它會有一個類似於< databricks-instance > -worker-unmanaged.(例如:dbc-fb3asdddd3-worker-unmanaged

  2. 編輯安全組並添加允許端口的入站TCP規則2200工人的機器。可以是單個IP地址,也可以是一個範圍。

    SSH安全組
  3. 確保您的計算機和辦公室允許您在端口上發送TCP通信2200

生成SSH密鑰對

在終端會話中使用此命令創建SSH密鑰對:

Ssh-keygen -t rsa -b4096- c“email@example.com”

您必須提供要保存公鑰和私鑰的目錄的路徑。公鑰與擴展名一起保存.pub

使用您的公鑰配置一個新的集群

  1. 複製公鑰文件的全部內容。

  2. 在集群配置頁麵,單擊高級選項切換。

  3. 在該頁的底部,單擊SSH選項卡。

  4. 將複製的密鑰粘貼到SSH公鑰字段。

    SSH輸入

使用您的公鑰配置現有集群

如果你有一個集群,並且在集群創建過程中沒有提供公鑰,你可以通過從附加到集群的任何筆記本運行以下代碼注入公鑰:

瓦爾publicKey“把你的公開密碼匙放在這裏”defaddAuthorizedPublicKey關鍵字符串):單位瓦爾弗蘭克-威廉姆斯javaioFileWriter“/ home / ubuntu / . ssh / authorized_keys”/ *添加* /真正的弗蘭克-威廉姆斯“\ n”+關鍵弗蘭克-威廉姆斯關閉()瓦爾numExecutorsscgetExecutorMemoryStatus大小sc並行化0直到numExecutorsnumExecutors).foreach= >addAuthorizedPublicKeypublicKeyaddAuthorizedPublicKeypublicKey

SSH到Spark驅動程序節點

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 單擊SSH選項卡。複製驅動程序節點主機名。

  3. 執行以下命令,替換主機名和私鑰文件路徑。

    ssh ubuntu@ <主機名> p2200我< private-key-file-path >

SSH到Spark工作節點

您可以以與SSH到驅動程序節點相同的方式SSH到工作節點。

  1. 在集群詳情頁麵,單擊Spark Cluster UI - Master選項卡。

  2. 在Workers表中,單擊要SSH到的worker。複製Hostname字段。

    SSH主機名

集群日誌交付

創建集群時,可以指定Spark驅動節點、工作節點和事件的日誌下發位置。日誌每5分鍾發送一次到您選擇的目的地。當一個集群終止時,Databricks保證在集群終止之前發送所有生成的日誌。

日誌的目的與集群ID有關。如果指定的目的地為dbfs: / cluster-log-delivery的集群日誌。0630 - 191345 leap375交付給dbfs: / cluster-log-delivery / 0630 - 191345 leap375

配置日誌下發位置。

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 單擊日誌記錄選項卡。

    集群日誌交付

  3. 選擇目標類型。

  4. 輸入集群日誌路徑。

S3 bucket的目的地

如果選擇S3目標,則必須為集群配置一個可以訪問桶的實例配置文件。此實例概要文件必須具有propertynames而且PutObjectAcl權限。為了方便您,本文包含了一個示例實例概要文件。看到使用實例配置文件安全訪問S3桶有關如何設置實例概要文件的說明。

“版本”“2012-10-17”“聲明”“效應”“允許”“行動”“s3: ListBucket”],“資源”“攻擊:aws: s3::: < my-s3-bucket >”},“效應”“允許”“行動”“s3: propertynames”“s3: PutObjectAcl”“s3: GetObject”“s3: DeleteObject”],“資源”“攻擊:aws: s3::: < my-s3-bucket > / *”

請注意

該特性在REST API中也可用。看到集群API 2.0而且集群日誌傳遞示例

Init腳本

集群節點初始化腳本是在每個集群節點啟動期間運行的shell腳本之前Spark驅動程序或worker JVM啟動。您可以使用初始化腳本來安裝Databricks運行時中不包含的包和庫,修改JVM係統類路徑,設置JVM使用的係統屬性和環境變量,或者修改Spark配置參數,以及其他配置任務。

可以將初始化腳本附加到集群高級選項節並單擊Init腳本選項卡。

有關詳細說明,請參見集群節點初始化腳本