配置池

本文解釋了在創建和編輯池時可用的配置選項。

配置池

池大小和自動終止

在創建池時,為了控製池的大小,可以設置三個參數:最小空閑實例、最大容量和空閑實例自動終止。

最小空閑實例

池保持空閑的最小實例數。不管在空閑實例自動終止中指定了什麼設置,這些實例都不會終止。如果集群使用池中的空閑實例,Databricks將提供額外的實例以保持最小值。

最小空閑實例配置

最大容量

池將提供的最大實例數。如果設置了,這個值是約束的所有實例(閑置+使用)。如果使用池的集群請求的實例多於此數目自動定量時,請求將失敗INSTANCE_POOL_MAX_CAPACITY_FAILURE錯誤。

最大容量配置

這個配置是可選.Databricks建議隻在以下情況下設置值:

  • 您有一個實例配額必須保持下。

  • 您希望保護一組工作不影響另一組工作。例如,假設您的實例配額是100,並且您的團隊A和B需要運行作業。您可以創建一個最多50的池A和一個最多50的池B,這樣兩個團隊就可以公平地共享100個配額。

  • 你需要限製成本。

空閑實例自動終止

實例超過該值所設置的時間(以分鍾為單位)最小空閑實例在被池終止之前可以處於空閑狀態。

空閑實例自動終止配置

實例類型

池由為新集群準備的空閑實例和正在運行的集群使用的實例組成。所有這些實例都具有相同的實例提供程序類型,這是在創建池時選擇的。

不能編輯池的實例類型。附加到池的集群對驅動程序節點和工作節點使用相同的實例類型。不同的實例類型適用於不同的用例,例如內存密集型或計算密集型工作負載。

實例類型

Databricks總是在停止對實例類型的支持之前提供一年的棄用通知。

預加載Databricks運行時版本

通過選擇要在池中的空閑實例上加載的Databricks Runtime版本,可以加快集群啟動。如果用戶在創建由池支持的集群時選擇了該運行時,那麼該集群的啟動速度甚至會比不使用預加載Databricks runtime版本的池支持集群更快。

將此選項設置為沒有一個減慢集群啟動,因為它會導致Databricks Runtime版本按需下載到池中的空閑實例。當集群釋放池中的實例時,Databricks Runtime版本將保留在這些實例上的緩存。使用相同Databricks Runtime版本的下一個集群創建操作可能會從這種緩存行為中受益,但不能保證。

預加載的運行時版本

池標簽

池標記允許您輕鬆地監視組織中各個組使用的雲資源的成本。在創建池時,可以將標記指定為鍵-值對,Databricks將這些標記應用於虛擬機和磁盤卷等雲資源DBU使用報告

為了方便起見,Databricks為每個池應用三個默認標記:供應商DatabricksInstancePoolId,DatabricksInstancePoolCreatorId.您還可以在創建池時添加自定義標記。您最多可以添加43個自定義標記。

自定義標記的繼承

池支持的集群從池配置繼承默認和自定義標記。有關池標記和集群標記如何協同工作的詳細信息,請參見使用集群和池標記監視使用情況

配置自定義池標記

  1. 在池配置頁麵的底部,選擇標簽選項卡。

  2. 為自定義標記指定鍵值對。

    標簽鍵-值對
  3. 點擊添加

AWS的配置

在配置池的AWS實例時,您可以選擇可用分區、是否使用現貨實例和最大現貨價格以及EBS卷類型和大小。附加到池的所有集群繼承這些配置。如果需要指定配置,請在池配置頁麵底部單擊實例選項卡。

AWS的配置

可用性區域

如果您的組織已經在特定的可用分區中購買了保留實例,那麼為池選擇特定的可用分區將非常有用。閱讀更多關於AWS可用性區域

現貨實例

您可以指定是否使用現貨實例,以及在啟動現貨實例時使用的最大現貨價格(按需價格的百分比)。默認情況下,Databricks將最大現貨價格設置為按需價格的100%。看到AWS現貨價格

一個池可以是所有現場實例,也可以是所有按需實例。

EBS卷

本節介紹池實例的默認EBS卷設置。

默認EBS卷

Databricks為每個實例提供EBS卷如下:

  • 一個30 GB的未加密的EBS實例根卷,僅供主機操作係統和Databricks內部服務使用。

  • Spark工作者使用的一個150gb加密的EBS容器根卷。承載Spark服務和日誌。

  • (僅適用於HIPAA)一個75 GB加密的EBS工作日誌卷,用於存儲Databricks內部服務的日誌。

添加EBS shuffle卷

如果需要添加shuffle卷,選擇通用SSD在“EBS卷類型”下拉列表中:

添加EBS shuffle卷

默認情況下,Spark shuffle輸出到實例本地磁盤。對於沒有本地磁盤的實例類型,或者如果希望增加Spark shuffle存儲空間,可以指定額外的EBS卷。當運行產生大量shuffle輸出的Spark作業時,這對於防止磁盤空間不足的錯誤特別有用。

Databricks為按需和現場實例加密這些EBS卷。閱讀更多關於AWS EBS卷

AWS EBS限製

確保AWS EBS限製足夠高,以滿足所有池中所有實例的運行時需求。有關默認EBS限製以及如何更改這些限製的信息,請參見Amazon彈性塊存儲(EBS)限製

自動定量本地存儲

如果不希望在創建池時分配固定數量的EBS卷,請使用自動伸縮本地存儲。通過自動伸縮本地存儲,Databricks可以監視您的池的Spark worker上可用的空閑磁盤空間的數量。如果某個工作者的磁盤空間開始過低,Databricks會在該工作者的磁盤空間耗盡之前自動將一個新的EBS卷掛載到該工作者。每個實例(包括實例的本地存儲)所附加的EBS卷的總磁盤空間不超過5 TB。

若要配置自動伸縮存儲,請選擇啟用自動伸縮本地存儲在自動駕駛選項:

啟用自動伸縮本地存儲

隻有當實例返回給AWS時,才會卸載附加到實例的EBS卷。也就是說,隻要實例在池中,EBS卷就不會與實例分離。為了減少EBS的使用,Databricks建議配置池大小和自動終止

請注意

  • Databricks使用吞吐量優化HDD (st1)擴展實例的本地存儲。的默認AWS容量限製這些卷的價格是20 xb。為了避免達到此限製,管理員應該根據自己的使用需求請求增加此限製。

  • 如果你想使用自動伸縮的本地存儲,IAM角色或用於創建你的帳戶的密鑰必須包含權限ec2: AttachVolumeec2: CreateVolumeec2: DeleteVolume,ec2: DescribeVolumes.有關權限的完整列表以及如何更新您現有IAM角色或密鑰的說明,請參見創建跨帳戶IAM角色