配置集群

請注意

這些都說明遺留集群創建UI,並且隻包括曆史準確性。所有客戶beplay体育app下载地址都應該使用創建集群UI更新

請注意

CLI功能不可用這個版本磚在穀歌的雲上。

本文解釋了可用的配置選項,當你創建和編輯數據磚集群。它著重於創建和編輯集群使用UI。其他方法,請參閱磚CLI,集群API,磚起程拓殖的提供者

幫助決定哪些配置選項的組合最適合您的需要,明白了集群配置的最佳實踐

創建集群

集群政策

一個集群政策限製的能力配置集群基於一組規則。策略規則限製可用的屬性或屬性值創建集群。集群政策acl,限製他們使用特定的用戶和組,從而限製政策,您可以選擇當您創建一個集群。

配置一個集群政策,選擇的集群政策政策下拉。

選擇集群政策

請注意

如果沒有政策在工作區中創建,政策下拉不顯示。

如果你有:

  • 集群創建權限,你可以選擇不受限製的政策和創建完全可配置集群。的不受限製的集群政策不限製任何屬性或屬性值。

  • 兩個集群創建權限和訪問集群政策,你可以選擇不受限製的你可以訪問政策和政策。

  • 訪問集群政策,您可以選擇您使用的政策。

集群模式

磚集群支持三種模式:標準,高並發,單獨的節點。默認的集群模式是標準。

重要的

你不能改變後的集群模式創建一個集群。如果你想要一個不同的集群模式,您必須創建一個新的集群。

包括一個集群配置自動終止設置的默認值取決於集群模式:

  • 標準和單節點集群默認120分鍾後自動終止。

  • 高並發的集群默認情況下自動終止。

標準的集群

警告

標準模式集群(有時稱為任何隔離共享集群)可以由多個用戶共享,與用戶之間沒有隔離。如果你使用High Concurrency集群模式acl不表,使用了相同的設置標準模式集群。賬戶管理員可以防止內部憑證自動生成磚工作空間的管理員在這些類型的集群。為更安全的選擇,磚建議替代的高並發性等集群表acl。

一個標準的集群僅為單一用戶推薦。標準Python開發的集群可以運行工作負載,SQL, R, Scala。

高並發的集群

高並發集群是一個雲資源管理。高並發性集群的主要好處是,他們提供細粒度共享最大的資源利用率和最小查詢延遲。

高並發運行工作負載集群開發的SQL, Python,和r .高並發的性能和安全集群是由在單獨的進程中運行用戶代碼,在Scala中這是不可能的。

此外,隻有高並發的集群支持訪問控製表

創建一個高並發集群,集集群模式高並發

高並發集群模式

單節點集群

單個節點集群沒有工人和司機節點上運行引發工作。

相比之下,一個標準的集群需要至少有一個引發工人節點除了司機節點執行引發的工作。

創建一個單獨的節點集群,集集群模式單獨的節點

單節點集群模式

了解更多關於使用單節點集群,明白了單節點集群

減少集群開始時間,您可以附加一個預定義的集群閑置的實例。創建集群使用實例池中。如果池中沒有足夠的空閑資源創建請求司機或工人,池擴大供應商分配新實例的實例。集群連接終止時,它使用實例返回到池中,由不同的集群可以重用。

看到創建一個池了解更多關於工作在磚池。

磚運行時

磚的設置是運行時上運行的核心組件集群。所有磚運行時包含Apache火花和添加組件和更新,提高可用性,性能和安全。有關詳細信息,請參見磚運行時

磚提供了幾種類型的運行時和幾個版本的運行時類型磚的運行時版本的拉當您創建或編輯一個集群。

選擇運行時版本

光子加速

光子用於集群運行嗎磚運行時9.1 LTS及以上。

使光子加速,選擇使用光子加速複選框。

如果需要,您可以指定實例類型的工人的類型和驅動程序類型下拉。

你可以把光子的活動火花UI。下麵的屏幕截圖顯示了查詢細節DAG。有兩個光子在DAG的跡象。首先,光子運營商開始“光子”,例如,PhotonGroupingAgg。第二,在DAG光子運營商和階段是彩色的桃子,而non-Photon的是藍色的。

光子DAG

集群節點類型

一個集群由一個驅動節點和零個或多個工作節點。

你可以選擇單獨的雲提供商為司機和工人節點實例類型,盡管默認情況下司機節點使用相同的實例類型工作節點。不同家庭的實例類型適合不同的用例,如內存密集型或計算密集型工作負載。

司機節點

司機節點維護狀態信息的筆記本電腦連接到集群。司機節點還維護SparkContext並解釋所有的命令你在集群上運行從一個筆記本和一個圖書館,並運行Apache主坐標的火花引發執行人。

司機節點類型的默認值是一樣的工人節點類型。你可以選擇一個更大的驅動節點類型和更多的內存,如果你正計劃收集()大量的數據從引發工人和分析他們在筆記本上。

提示

因為司機節點維護的所有狀態信息的筆記本電腦,確保分離未使用的筆記本從司機節點。

工作者節點

磚工人節點運行所需的火花執行者和其他服務正常運行的集群。當你分發工作負載與火花,所有的分布式處理發生在工作節點。磚運行一個人均執行器節點;因此條款遺囑執行人工人是交替使用的磚結構。

提示

火花運行工作,你至少需要一個工作節點。如果集群的工人為零,你可以運行non-Spark命令司機節點上,但火花命令將失敗。

GPU實例類型

對於需求的高性能的計算有挑戰性的任務,像那些與深度學習,磚支持集群加速的圖形處理單元(gpu)。有關更多信息,請參見GPU-enabled集群

與當地ssd集群實例類型

最新的實例類型列表,每一個的價格,和當地的ssd的大小,看到GCP定價估計量

實例類型,當地ssd與默認穀歌雲服務器端加密加密。

與當地ssd自動使用實例類型磁盤緩存改進的性能。緩存的大小在所有實例類型自動設置,所以你不需要顯式地設置磁盤使用情況。

集群規模和自動定量

當你創建一個磚集群,可以為集群提供一個固定數量的工人或提供的最小和最大數量的工人集群。

當你提供固定大小的集群,磚確保集群有指定數量的工人。當你為工人的數量,提供一係列磚選擇適當數量的工人需要運行你的工作。這被稱為自動定量

與自動定量、動態磚是重新分配人員占你的工作的特點。某些部位的管道可能比其他人更計算要求,和磚自動添加額外的工人在這階段的工作(並刪除他們當他們不再需要)。

自動定量使它更容易實現集群利用率高,因為你不需要提供集群匹配工作負載。這尤其適用於負載的需求隨時間變化(如每天探索過程中數據集),但它也能適用於一次性短工作負載的配置需求是未知的。自動定量因此提供了兩個優點:

  • 工作負載可以運行得更快而constant-sized under-provisioned集群。

  • 自動定量集群靜態大小的集群相比可以降低整體成本。

根據集群的常數大小和工作負載,自動定量給你其中的一個或兩個同時受益。集群規模可以低於最小數量的工人時選擇的雲提供商終止實例。在這種情況下,磚不斷重試重新供應實例為了維持最低的工人數量。

請注意

自動定量是不可用的spark-submit就業機會。

如何自動定量的行為

  • 尺度從最小到最大2步驟。

  • 即使可以縮小規模集群不空閑看洗牌文件狀態。

  • 基於當前節點的比例尺度。

  • 工作群,尺度下如果集群充分利用過去40秒。

  • 通用的集群,尺度下如果集群充分利用過去150秒。

  • spark.databricks.aggressiveWindowDownS火花在幾秒鍾內配置屬性指定集群頻率使縮小規模的決定。持續增加的值會導致一個集群規模更慢。最大值是600。

啟用和配置自動定量

允許磚自動調整您的集群,啟用自動定量的集群和提供的最小和最大範圍的工人。

  1. 啟用自動定量。

    • 通用的集群,在集群創建頁麵,選擇啟用自動定量複選框的自動駕駛儀的選擇箱:

      Enable_autoscaling交互式集群
    • 集群工作——在集群配置頁麵,選擇啟用自動定量複選框的自動駕駛儀的選擇箱:

      啟用自動定量工作集群
  2. 配置min和max工人。

    配置min和max工人

    當集群運行時,集群的詳細頁麵顯示分配工人的數量。可以比較的數量分配工人與工人配置並根據需要做出調整。

重要的

如果您正在使用一個實例池:

  • 確定集群的大小要求是小於或等於最小數量的空閑實例在遊泳池裏。如果是較大的,集群啟動時間將相當於一個集群,不使用池。

  • 確保最大的集群大小小於或等於最大容量的池。如果是較大的,集群創建將會失敗。

自動定量的例子

如果你重新配置靜態集群是一個自動定量集群,磚立即調整集群的大小在最小和最大範圍內,然後開始自動定量。作為一個例子,下表顯示具有一定的初始大小的集群會怎樣如果你重新配置集群自動定量之間的5和10個節點。

初始大小

重新配置後尺寸

6

6

12

10

3

5

穀歌雲配置

當您配置一個集群的穀歌穀歌雲實例可以指定特定於雲的選項。

使用搶占的實例

一個搶占式虛擬機實例是一個實例,您可以創建和運行在一個低得多的價格要比普通的實例。然而,穀歌雲可能會停止這些實例(搶占)如果需要訪問這些資源其他任務。搶占式實例使用穀歌計算引擎能力過剩,所以他們的可用性隨使用。

當你創建一個新的集群,您可以啟用搶占的VM實例在兩種不同的方式:

  1. 當你使用UI創建一個集群時,你可以點擊搶占式實例旁邊的工作類型細節。

  2. 當你使用UI創建一個實例池,您可以設置隨需應變/搶占式所有的搶占式,搶占式與後備GCP,或對需求的質量。如果搶占的VM實例並不可用,默認情況下,使用隨需應變的VM實例集群將退回。配置默認行為,集gcp_attributes.gcp_availabilityPREEMPTIBLE_GCPPREEMPTIBLE_WITH_FALLBACK_GCP。默認值是ON_DEMAND_GCP

{“instance_pool_name”:“搶占的w / o後備API測試”,“node_type_id”:“n1-highmem-4”,“gcp_attributes”:{“gcp_availability”:“PREEMPTIBLE_GCP”}}

接下來,創建一個新的集群和設置搶占式實例池。

穀歌服務帳戶

把這個集群和穀歌服務帳戶使用穀歌標識,點擊高級選項並添加你的穀歌服務帳戶的電子郵件地址穀歌服務帳戶字段。這個值是用於驗證GCSBigQuery數據源。

重要的

您使用的服務帳戶訪問GCS和BigQuery數據源必須位於同一個項目時指定的服務帳戶設置磚帳戶。

本地磁盤加密

實例類型,當地ssd與默認穀歌雲服務器端加密加密。看到與當地ssd集群實例類型

火花配置

微調刺激就業,你可以提供自定義的火花配置屬性在一個集群中配置。

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 單擊火花選項卡。

    火花配置

    火花配置進入配置屬性,每行一個鍵-值對。

當您配置集群使用集群API,設置火花屬性spark_conf字段創建新集群API更新集群配置API

檢索一個火花配置屬性從一個秘密

磚建議存儲敏感信息,比如密碼,秘密而不是明文。引用一個秘密的火花配置,使用下麵的語法:

火花。<屬性名>{{秘密/ < scope-name > / <秘密名字>}}

例如,設置一個火花配置屬性密碼秘密存儲的值秘密/ acme_app /密碼:

火花。密碼{{秘密/ acme-app /密碼}}

有關更多信息,請參見語法引用火花配置中的秘密財產或環境變量

環境變量

您可以配置自定義環境變量,您可以訪問init腳本在一個集群上運行。磚還提供了預定義的環境變量在init腳本,您可以使用。你不能覆蓋這些預定義的環境變量。

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 單擊火花選項卡。

  3. 設置環境變量環境變量字段。

    環境變量字段

你也可以設置環境變量使用spark_env_vars字段創建新集群API更新集群配置API

集群的標簽

集群標簽允許您方便地監視各種團體所使用的雲資源的成本在你的組織中。您可以指定標簽作為鍵值對,當你創建一個集群,和磚這些標簽適用於磚GKE集群上運行時豆莢和持久卷和用於磚DBU使用報告

的磚計費使用圖表在賬戶控製台可以總使用個人標簽。計費使用CSV報告從相同的下載頁麵還包括違約和自定義標記。標簽也傳播GKE和GCE標簽

為詳細的信息關於池和集群標簽類型一起工作,明白了使用集群和池監控使用標簽

為了方便起見,磚四默認標簽適用於每個集群:供應商,創造者,ClusterName,ClusterId

此外,就業集群,磚適用兩個默認標簽:RunNameJobId

警告

不指定一個自定義標記的鑰匙嗎的名字一個集群。每個集群都有一個標簽的名字其價值是由磚。如果你改變的鍵相關聯的值的名字,集群可以通過磚不再被跟蹤。因此,集群可能不會成為閑置後終止了並將繼續產生使用成本。

你可以添加自定義標記當您創建一個集群。集群配置標簽:

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 在頁麵的底部,單擊標簽選項卡。

    標簽選項卡
  3. 為每個定製標記添加一個鍵-值對。您可以添加多達54個定製標記。

更多細節,請參見<用法標簽鏈接>。

SSH訪問集群

集群在這個版本不支持SSH。

一個相關的特性,看到網絡終端

集群日誌交付

當您創建一個集群時,您可以指定一個位置提供的日誌引發司機節點,工作節點,和事件。日誌是每5分鍾發送到您所選擇的目的地。終止一個集群時,磚保證交付的所有日誌生成到集群是終止。

日誌的目的地取決於集群ID。如果指定的目的地dbfs: / cluster-log-delivery、集群日誌0630 - 191345 leap375交付給dbfs: / cluster-log-delivery / 0630 - 191345 leap375

配置日誌交付地點:

  1. 在集群配置頁麵,單擊高級選項切換。

  2. 單擊日誌記錄選項卡。

  3. 選擇一個目的地類型。

  4. 進入集群日誌路徑。

    日誌路徑必須是DBFS開頭的路徑dbfs: /

請注意

這個功能也可以在REST API。看到集群API

Init腳本

一個集群節點初始化運行初始化腳本是一個shell腳本,在啟動每個集群節點之前火花司機或工人JVM開始。您可以使用init腳本安裝包和庫不包含在磚運行時,修改JVM係統類路徑,設置係統屬性和環境變量所使用的JVM,或修改配置參數,以及其他配置任務。

您可以將init腳本附加到一個集群擴展高級選項部分並單擊Init腳本選項卡。

有關詳細說明,請參見集群節點初始化腳本