集群API 2.0

集群API允許您創建、啟動、編輯、列出、終止和刪除集群。對群集API的請求允許的最大大小是10MB。

集群生命周期方法需要一個集群ID,該ID從創建.要獲取集群列表,請調用列表

Databricks將集群節點實例類型映射到稱為DBUs的計算單元。看到實例類型定價頁麵查看所支持的實例類型及其對應的DBUs的列表。有關實例提供程序信息,請參見AWS實例類型規範而且定價

Databricks總是在停止對實例類型的支持之前提供一年的棄用通知。

警告

永遠不要硬編碼秘密或將其存儲在純文本中。使用秘密API 2.0管理秘密在磚CLI.使用秘密效用(dbutils.secrets)在筆記本和工作中引用秘密。

重要的

要訪問Databricks的REST api,您必須進行身份驗證

創建

端點

HTTP方法

2.0 / /創建的集群

帖子

創建一個新的Apache Spark集群。如果需要,此方法從雲提供程序獲取新實例。這個方法是異步的;返回的cluster_id可用於輪詢集群狀態。當此方法返回時,集群位於等待狀態。集群一旦進入運行狀態。看到ClusterState

請注意

由於雲提供商的限製或瞬時網絡問題,Databricks可能無法獲取某些請求的節點。如果Databricks至少獲得85%的請求按需節點,則集群創建將成功。否則,集群將終止並返回一條信息豐富的錯誤消息。

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/create——數據@create-cluster.json

create-cluster.json

“cluster_name”“my-cluster”“spark_version”“7.3.x-scala2.12”“node_type_id”“i3.xlarge”“spark_conf”“spark.speculation”真正的},“aws_attributes”“可用性”“現貨”“zone_id”“us-west-2a”},“num_workers”25
“cluster_id”“1234 - 567890 cited123”

下麵是一個自動伸縮集群的示例。該集群將從兩個節點(最小值)開始。

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/create——數據@create-cluster.json

create-cluster.json

“cluster_name”“autoscaling-cluster”“spark_version”“7.3.x-scala2.12”“node_type_id”“i3.xlarge”“自動定量”“min_workers”2“max_workers”50
“cluster_id”“1234 - 567890 batch123”

此示例創建一個單節點集群.創建單節點集群。

  • spark_conf而且custom_tags精確到示例中的值。

  • num_workers0

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/create——數據@create-cluster.json

create-cluster.json

“cluster_name”“single-node-cluster”“spark_version”“7.6.x-scala2.12”“node_type_id”“i3.xlarge”“num_workers”0“spark_conf”“spark.databricks.cluster.profile”“singleNode”“spark.master”“地方(* 4)”},“custom_tags”“ResourceClass”“SingleNode”
“cluster_id”“1234 - 567890 ruins123”

本示例創建一個集群並掛載一個Amazon EFS文件係統。

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/create——數據@create-cluster.json

create-cluster.json

“cluster_name”“efs-cluster”“spark_version”“7.6.x-scala2.12”“node_type_id”“i3.xlarge”“instance_type”“i3.xlarge”“cluster_mount_infos”:[“network_filesystem_info”: {“server_address”“hostname.efs.us -東- 1. amazonaws.com”“mount_options”“rsize = 1048576, wsize = 1048576,硬,timeo = 600”},“remote_mount_dir_path”“/”“local_mount_dir_path”“/ mnt / efs-mount”),“aws_attributes”: {“可用性”“現貨”“zone_id”“us-east-2”},“num_workers”25
“cluster_id”“1234 - 567890 pouch123”

若要使用策略在新集群中創建作業或提交運行,請設置policy_id策略ID:

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/create——數據@create-cluster.json

create-cluster.json

“num_workers”“自動定量”“min_workers”2“max_workers”8},“cluster_name”“my-cluster”“spark_version”“7.3.x-scala2.12”“spark_conf”{},“aws_attributes”“first_on_demand”1“可用性”“SPOT_WITH_FALLBACK”“zone_id”“us-west-2a”“instance_profile_arn”“spot_bid_price_percent”One hundred.“ebs_volume_count”0},“node_type_id”“i3.xlarge”“ssh_public_keys”[],“custom_tags”{},“spark_env_vars”“PYSPARK_PYTHON”“磚/ python3 / bin / python3”},“autotermination_minutes”120“init_scripts”[],“policy_id”“C65B864F02000008”
“cluster_id”“1234 - 567890 buyer123”

中定義集群的屬性以創建新集群new_cluster

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/jobs/create——數據@create-job.json

create-job.json

“run_name”“我的任務”火花“new_cluster”“spark_version”“7.3.x-scala2.12”“node_type_id”“r3.xlarge”“aws_attributes”“可用性”“ON_DEMAND”},“num_workers”10“policy_id”“ABCD000000000000”},“庫”“罐子”“dbfs: / my-jar.jar”},“專家”“坐標”“org.jsoup: jsoup: 1.7.2”),“spark_jar_task”“main_class_name”“com.databricks.ComputeModels”
“job_id”244

集群定義的請求結構

字段名

類型

描述

num_workers或自動定量

INT32自動定量

如果num_workers,表示該集群應該擁有的工作節點的數量。一個集群有一個Spark驅動程序和num_workers執行程序,總共有num_workers + 1個Spark節點。

注意:在讀取集群的屬性時,該字段反映的是所需的工人數量,而不是工人的實際數量。例如,如果一個集群的大小從5個調整到10個工人,這個字段將立即更新,以反映10個工人的目標大小,而在執行人隨著新節點的提供,將逐漸從5個增加到10個。

如果是自動伸縮,則需要根據負載自動伸縮集群所需的參數。

cluster_name

字符串

用戶請求的集群名稱。這並不一定是唯一的。如果在創建時未指定,則集群名稱將是一個空字符串。

spark_version

字符串

集群的運行時版本。方法可以檢索可用運行時版本的列表運行時版本API調用。此字段為必填項。

spark_conf

SparkConfPair

一個對象,包含一組可選的、用戶指定的Spark配置鍵-值對。您還可以通過將一串額外的JVM選項傳遞給驅動程序和執行程序spark.driver.extraJavaOptions而且spark.executor.extraJavaOptions分別。火花參看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

與在Amazon Web Services上運行的集群相關的屬性。如果在創建集群時未指定,則使用一組默認值。

node_type_id

字符串

該字段通過一個值編碼該集群中每個Spark節點可用的資源。例如,可以針對內存或計算密集型工作負載提供和優化Spark節點節點類型列表API調用。此字段為必填項。

driver_node_type_id

字符串

Spark驅動的節點類型。該字段是可選的;如果未設置,則驅動程序節點類型將設置為與node_type_id上麵的定義。

ssh_public_keys

一個數組的字符串

SSH公鑰內容,將添加到該集群中的每個Spark節點。可以使用相應的私鑰以用戶名登錄ubuntu在端口2200.最多可以指定10個鍵。

custom_tags

ClusterTag

一個對象,包含一組用於集群資源的標記。Databricks除了使用default_標簽外,還使用這些標簽標記所有集群資源(例如AWS實例和EBS卷)。

請注意

  • 在計算優化和內存優化等遺留節點類型上不支持標記。

  • Databricks最多允許45個自定義標簽。

  • 如果集群是在實例池上創建的,則集群標記不會複製到集群資源中。要標記實例池的資源,請參見custom_tags字段實例池API 2.0

cluster_log_conf

ClusterLogConf

Spark日誌發送到長期存儲目的地的配置。一個集群隻能指定一個目標。如果指定了conf參數,則每天將日誌下發到目的地5分鍾.驅動日誌的目的地為<目標> / < cluster-ID > /司機, executor日誌的目的地為<目標> / < cluster-ID > /執行人

init_scripts

一個數組的InitScriptInfo

用於存儲初始化腳本的配置。可以指定任意數量的目的地。這些腳本按照所提供的順序依次執行。如果cluster_log_conf時,初始化腳本日誌發送到<目標> / < cluster-ID > / init_scripts

docker_image

DockerImage

Docker映像自定義容器

spark_env_vars

SparkEnvPair

一個對象,它包含一組可選的、用戶指定的環境變量鍵值對。表單(X,Y)的鍵值對按如下方式導出(即,出口X = Y),同時啟動司機和工人。以便指定一個額外的集合SPARK_DAEMON_JAVA_OPTS,我們建議將它們添加到SPARK_DAEMON_JAVA_OPTS美元如下例所示。這確保所有默認的Databricks管理的環境變量也被包括在內。Spark環境變量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

autotermination_minutes

INT32

在此時間內處於不活動狀態後自動終止集群。如果未設置,此集群將不會自動終止。如果指定了該閾值,則該閾值必須在10到10000分鍾之間。還可以將該值設置為0以顯式禁用自動終止。

enable_elastic_disk

保齡球

自動伸縮本地存儲:當啟用時,當Spark worker的磁盤空間不足時,該集群將動態地獲取額外的磁盤空間。該特性需要特定的AWS權限才能正常工作-請參考自動定量本地存儲獲取詳細信息。

driver_instance_pool_id

字符串

要用於驅動程序節點的實例池的可選ID。您還必須指定instance_pool_id.指實例池API 2.0獲取詳細信息。

instance_pool_id

字符串

要用於集群節點的實例池的可選ID。如果driver_instance_pool_id存在,instance_pool_id僅用於工作節點。否則,它將同時用於驅動程序和工作節點。指實例池API 2.0獲取詳細信息。

idempotency_token

字符串

可選令牌,用於保證集群創建請求的等冪性。如果將冪等令牌分配給不在終止狀態,請求不創建新的集群,而是返回現有集群的ID。否則,將創建一個新的集群。當集群終止時,冪等令牌將被清除

如果指定了冪等令牌,則在失敗時可以重試,直到請求成功。Databricks保證使用這個冪等令牌啟動一個集群。

這個令牌最多應該有64個字符。

apply_policy_default_values

保齡球

是否使用政策缺少集群屬性的默認值。

enable_local_disk_encryption

保齡球

集群本地磁盤是否開啟加密功能。

runtime_engine

字符串

要使用的運行時引擎的類型。如果未指定,運行時引擎類型將根據spark_version價值。允許的值包括:

  • 光子:使用光子運行時引擎類型。

  • 標準:使用標準運行時引擎類型。

該字段是可選的。

cluster_mount_infos

一個數組的MountInfo

一個對象,包含用於網絡文件係統掛載的可選規範。

響應結構

字段名

類型

描述

cluster_id

字符串

集群的規範標識符。

編輯

端點

HTTP方法

2.0 /集群/編輯

帖子

編輯集群的配置以匹配所提供的屬性和大小。

如果集群位於運行終止狀態。如果在集群中編輯集群運行狀態時,它將重新啟動,以便新屬性生效。如果在集群中編輯集群終止國家,它將繼續存在終止.的方法啟動時集群/啟動API中,新的屬性將生效。控件將拒絕編輯處於任何其他狀態的集群INVALID_STATE錯誤代碼。

無法編輯Databricks Jobs服務創建的集群。

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/edit——數據@edit-cluster.json

edit-cluster.json

“cluster_id”“1202 - 211320 brick1”“num_workers”10“spark_version”“7.3.x-scala2.12”“node_type_id”“i3.2xlarge”
{}

請求結構

字段名

類型

描述

num_workers或自動定量

INT32自動定量

如果num_workers,表示該集群應該擁有的工作節點的數量。一個集群有一個Spark驅動程序和num_workers執行程序,總共有num_workers + 1個Spark節點。

注意:在讀取集群的屬性時,該字段反映的是所需的工人數量,而不是工人的實際數量。例如,如果一個集群的大小從5個調整到10個工人,這個字段將立即更新,以反映10個工人的目標大小,而在執行人隨著新節點的提供,將逐漸從5個增加到10個。

如果是自動伸縮,則需要根據負載自動伸縮集群所需的參數。

cluster_id

字符串

集群的規範標識符。此字段為必填項。

cluster_name

字符串

用戶請求的集群名稱。這並不一定是唯一的。如果在創建時未指定,則集群名稱將是一個空字符串。

spark_version

字符串

集群的運行時版本。方法可以檢索可用運行時版本的列表運行時版本API調用。此字段為必填項。

spark_conf

SparkConfPair

一個對象,包含一組可選的、用戶指定的Spark配置鍵-值對。您還可以通過將一串額外的JVM選項傳遞給驅動程序和執行程序spark.driver.extraJavaOptions而且spark.executor.extraJavaOptions分別。

火花參看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

與在Amazon Web Services上運行的集群相關的屬性。如果在創建集群時未指定,則將使用一組默認值。

node_type_id

字符串

該字段通過一個值編碼該集群中每個Spark節點可用的資源。例如,可以針對內存或計算密集型工作負載提供和優化Spark節點節點類型列表API調用。此字段為必填項。

driver_node_type_id

字符串

Spark驅動的節點類型。該字段是可選的;如果未設置,則驅動程序節點類型將設置為與node_type_id上麵的定義。

ssh_public_keys

一個數組的字符串

SSH公鑰內容,將添加到該集群中的每個Spark節點。可以使用相應的私鑰以用戶名登錄ubuntu在端口2200.最多可以指定10個鍵。

custom_tags

ClusterTag

一個對象,包含一組用於集群資源的標記。Databricks除了使用default_標簽外,還使用這些標簽標記所有集群資源(例如AWS實例和EBS卷)。

請注意

  • 在計算優化和內存優化等遺留節點類型上不支持標記。

  • Databricks最多允許45個自定義標簽。

  • 如果集群是在實例池上創建的,則集群標記不會複製到集群資源中。要標記實例池的資源,請參見custom_tags字段實例池API 2.0

cluster_log_conf

ClusterLogConf

Spark日誌發送到長期存儲目的地的配置。一個集群隻能指定一個目標。如果指定了conf參數,則每天將日誌下發到目的地5分鍾.驅動日誌的目的地為<目標> / < cluster-ID > /司機, executor日誌的目的地為<目標> / < cluster-ID > /執行人

init_scripts

一個數組的InitScriptInfo

用於存儲初始化腳本的配置。可以指定任意數量的目的地。這些腳本按照所提供的順序依次執行。如果cluster_log_conf時,初始化腳本日誌發送到<目標> / < cluster-ID > / init_scripts

docker_image

DockerImage

Docker映像自定義容器

spark_env_vars

SparkEnvPair

一個對象,它包含一組可選的、用戶指定的環境變量鍵值對。表單(X,Y)的鍵值對按如下方式導出(即,出口X = Y),同時啟動司機和工人。

以便指定一個額外的集合SPARK_DAEMON_JAVA_OPTS,我們建議將它們添加到SPARK_DAEMON_JAVA_OPTS美元如下例所示。這確保所有默認的Databricks管理的環境變量也被包括在內。

Spark環境變量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

autotermination_minutes

INT32

在此時間內處於不活動狀態後自動終止集群。如果未設置,此集群將不會自動終止。如果指定了該閾值,則該閾值必須在10到10000分鍾之間。還可以將該值設置為0以顯式禁用自動終止。

enable_elastic_disk

保齡球

自動伸縮本地存儲:當啟用時,當Spark worker的磁盤空間不足時,該集群將動態地獲取額外的磁盤空間。該特性需要特定的AWS權限才能正常工作-請參考自動定量本地存儲獲取詳細信息。

instance_pool_id

字符串

集群所屬實例池的可選ID。指獲取詳細信息。

apply_policy_default_values

保齡球

是否使用政策缺少集群屬性的默認值。

enable_local_disk_encryption

保齡球

集群本地磁盤是否開啟加密功能。

runtime_engine

字符串

要使用的運行時引擎的類型。如果未指定,運行時引擎類型將根據spark_version價值。允許的值包括:

  • 光子:使用光子運行時引擎類型。

  • 標準:使用標準運行時引擎類型。

該字段是可選的。

cluster_mount_infos

一個數組的MountInfo

一個對象,包含用於網絡文件係統掛載的可選規範。

開始

端點

HTTP方法

2.0 /集群/開始

帖子

根據其ID啟動已終止的集群。這類似於createCluster,除了:

  • 終止的集群ID和屬性將被保留。

  • 集群從最後指定的集群大小開始。如果終止的集群是自動伸縮集群,則集群從最小節點數開始。

  • 如果集群處於重新啟動狀態,一個400返回錯誤。

  • 不能啟動為運行作業而啟動的集群。

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/start——數據{"cluster_id": "1234-567890-reef123"} "
{}

請求結構

字段名

類型

描述

cluster_id

字符串

需要啟動的集群。此字段為必填項。

重新啟動

端點

HTTP方法

2.0 /集群/重新啟動

帖子

根據集群的ID重新啟動集群。集群必須在運行狀態。

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/restart——數據{"cluster_id": "1234-567890-reef123"} "
{}

請求結構

字段名

類型

描述

cluster_id

字符串

需要啟動的集群。此字段為必填項。

調整

端點

HTTP方法

2.0 /集群/調整

帖子

調整集群的大小,使其具有所需數量的工作人員。集群必須在運行狀態。

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/resize——數據{"cluster_id": "1234-567890-reef123", "num_workers": 30} "
{}

請求結構

字段名

類型

描述

num_workers或自動定量

INT32自動定量

如果num_workers,表示該集群應該擁有的工作節點的數量。一個集群有一個Spark驅動程序和num_workers執行程序,總共有num_workers + 1個Spark節點。

注意:在讀取集群的屬性時,該字段反映的是所需的工人數量,而不是工人的實際數量。例如,如果一個集群的大小從5個調整到10個工人,這個字段將立即更新,以反映10個工人的目標大小,而在執行人隨著新節點的提供,將逐漸從5個增加到10個。

如果是自動伸縮,則需要根據負載自動伸縮集群所需的參數。

cluster_id

字符串

要調整大小的集群。此字段為必填項。

刪除(終止)

端點

HTTP方法

2.0 /集群/刪除

帖子

終止一個給定ID的集群。集群被異步移除。終止完成後,集群將處於終止狀態。如果集群已經在終止終止狀態,什麼也不會發生。

除非集群是固定的,否則在集群終止30天後,它就是固定的永久刪除

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/delete——數據{"cluster_id": "1234-567890-frays123"} "
{}

請求結構

字段名

類型

描述

cluster_id

字符串

要終止的集群。此字段為必填項。

永久刪除

端點

HTTP方法

2.0 /集群/ permanent-delete

帖子

永久刪除集群。如果集群正在運行,它將被終止並異步刪除其資源。如果集群被終止,則立即刪除它。

您不能執行任何行動,包括在永久刪除的集群上檢索集群的權限。永久刪除的集群也不再返回到集群列表中。

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/permanent-delete——數據{"cluster_id": "1234-567890-frays123"} "
{}

請求結構

字段名

類型

描述

cluster_id

字符串

需要永久刪除的集群。此字段為必填項。

得到

端點

HTTP方法

2.0 /集群

得到

檢索給定標識符的集群的信息。集群可以在運行時描述,也可以在終止後的30天內描述。

例子

卷曲——netc -X GEThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/get——數據{"cluster_id": "1234-567890-reef123"} "|金橋。
“cluster_id”“1234 - 567890 reef123”“spark_context_id”4020997813441462000“cluster_name”“my-cluster”“spark_version”“8.2.x-scala2.12”“aws_attributes”“zone_id”“us-west-2c”“first_on_demand”1“可用性”“SPOT_WITH_FALLBACK”“spot_bid_price_percent”One hundred.“ebs_volume_count”0},“node_type_id”“i3.xlarge”“driver_node_type_id”“i3.xlarge”“autotermination_minutes”120“enable_elastic_disk”“disk_spec”“disk_count”0},“cluster_source”“用戶界麵”“enable_local_disk_encryption”“instance_source”“node_type_id”“i3.xlarge”},“driver_instance_source”“node_type_id”“i3.xlarge”},“狀態”“終止”“state_message”“不活動的集群終止(不活動120分鍾)。”“start_time”1618263108824“terminated_time”1619746525713“last_state_loss_time”1619739324740“num_workers”30.“default_tags”“供應商”“磚”“創造者”“someone@example.com”“ClusterName”“my-cluster”“ClusterId”“1234 - 567890 reef123”},“creator_user_name”“someone@example.com”“termination_reason”“代碼”“活動”“參數”“inactivity_duration_min”“120”},“類型”“成功”},“init_scripts_safe_mode”

請求結構

字段名

類型

描述

cluster_id

字符串

要檢索其信息的集群。此字段為必填項。

響應結構

字段名

類型

描述

num_workers或自動定量

INT32自動定量

如果num_workers,表示該集群應該擁有的工作節點的數量。一個集群有一個Spark驅動程序和num_workers執行程序,總共有num_workers + 1個Spark節點。

注意:在讀取集群的屬性時,該字段反映的是所需的工人數量,而不是工人的實際數量。例如,如果一個集群的大小從5個調整到10個工人,這個字段將立即更新,以反映10個工人的目標大小,而在執行人隨著新節點的提供,將逐漸從5個增加到10個。

如果是自動伸縮,則需要根據負載自動伸縮集群所需的參數。

cluster_id

字符串

集群的規範標識符。這個ID在集群重啟和調整大小時保留,而每個新集群都有一個全局唯一的ID。

creator_user_name

字符串

創造者用戶名。如果用戶已被刪除,則該字段將不包含在響應中。

司機

SparkNode

Spark驅動所在的節點。驅動程序節點包含Spark主程序和Databricks應用程序,後者管理每個筆記本的Spark reps。

執行人

一個數組的SparkNode

Spark執行程序駐留的節點。

spark_context_id

INT64

規範的SparkContext標識符。這個值Spark驅動重新啟動時更改。這一對(cluster_idspark_context_id)是所有Spark上下文的全局唯一標識符。

jdbc_port

INT32

驅動程序節點中Spark JDBC服務器監聽的端口。在執行節點中,沒有服務監聽此端口。

cluster_name

字符串

用戶請求的集群名稱。這並不一定是唯一的。如果在創建時未指定,則集群名稱將是一個空字符串。

spark_version

字符串

集群的運行時版本。方法可以檢索可用運行時版本的列表運行時版本API調用。

spark_conf

SparkConfPair

一個對象,包含一組可選的、用戶指定的Spark配置鍵-值對。您還可以通過將一串額外的JVM選項傳遞給驅動程序和執行程序spark.driver.extraJavaOptions而且spark.executor.extraJavaOptions分別。

火花參看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

與在Amazon Web Services上運行的集群相關的屬性。如果在創建集群時未指定,則將使用一組默認值。

node_type_id

字符串

該字段通過一個值編碼該集群中每個Spark節點可用的資源。例如,可以針對內存或計算密集型工作負載提供和優化Spark節點節點類型列表API調用。此字段為必填項。

driver_node_type_id

字符串

Spark驅動的節點類型。該字段是可選的;如果未設置,則驅動程序節點類型將設置為與node_type_id上麵的定義。

ssh_public_keys

一個數組的字符串

SSH公鑰內容,將添加到該集群中的每個Spark節點。可以使用相應的私鑰以用戶名登錄ubuntu在端口2200.最多可以指定10個鍵。

custom_tags

ClusterTag

一個對象,包含一組用於集群資源的標記。除default_tags外,Databricks還使用這些標記標記所有集群資源。

請注意

  • 在計算優化和內存優化等遺留節點類型上不支持標記。

  • Databricks最多允許45個自定義標簽。

  • 如果集群是在實例池上創建的,則集群標記不會複製到集群資源中。要標記實例池的資源,請參見custom_tags字段實例池API 2.0

cluster_log_conf

ClusterLogConf

Spark日誌發送到長期存儲目的地的配置。一個集群隻能指定一個目標。如果指定了conf參數,則每天將日誌下發到目的地5分鍾.驅動日誌的目的地為<目標> / < cluster-ID > /司機, executor日誌的目的地為<目標> / < cluster-ID > /執行人

init_scripts

一個數組的InitScriptInfo

用於存儲初始化腳本的配置。可以指定任意數量的目的地。這些腳本按照所提供的順序依次執行。如果cluster_log_conf,初始化腳本日誌將發送到該位置。

docker_image

DockerImage

Docker映像自定義容器

spark_env_vars

SparkEnvPair

一個對象,它包含一組可選的、用戶指定的環境變量鍵值對。表單(X,Y)的鍵值對按如下方式導出(即,出口X = Y),同時啟動司機和工人。

以便指定一個額外的集合SPARK_DAEMON_JAVA_OPTS,我們建議將它們添加到SPARK_DAEMON_JAVA_OPTS美元如下例所示。這確保所有默認的Databricks管理的環境變量也被包括在內。

Spark環境變量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

autotermination_minutes

INT32

在此時間內處於不活動狀態後自動終止集群。如果未設置,此集群將不會自動終止。如果指定了該閾值,則該閾值必須在10到10000分鍾之間。還可以將該值設置為0以顯式禁用自動終止。

enable_elastic_disk

保齡球

自動伸縮本地存儲:當啟用時,當Spark worker的磁盤空間不足時,該集群將動態地獲取額外的磁盤空間。該特性需要特定的AWS權限才能正常工作-請參考自動定量本地存儲獲取詳細信息。

instance_pool_id

字符串

集群所屬實例池的可選ID。指獲取詳細信息。

cluster_source

ClusterSource

確定集群是由用戶通過UI創建的,還是由Databricks Jobs調度程序創建的,還是通過API請求創建的,還是由Delta Live Tables運行時創建的。示例值包括API用戶界麵,或管道

狀態

ClusterState

集群狀態。

state_message

字符串

與最近的狀態轉換相關聯的消息(例如,集群輸入的原因)終止狀態)。

start_time

INT64

接收集群創建請求的時間(以epoch毫秒為單位)等待狀態)。

terminated_time

INT64

如果適用,集群終止的時間(以epoch毫秒為單位)。

last_state_loss_time

INT64

集群驅動程序最近一次失去狀態的時間(由於重新啟動或驅動程序失敗)。

last_activity_time

INT64

集群上一次活動的時間(以epoch毫秒為單位)。如果集群上至少有一個命令未完成,則該集群為活動的。該字段在集群到達運行狀態。對該字段的更新是盡最大努力進行的。某些版本的Spark不支持集群活動報告。指自動終止獲取詳細信息。

cluster_memory_mb

INT64

集群內存總量,以兆為單位。

cluster_cores

浮動

此集群可用的CPU核數。這可能是小數,因為某些節點類型被配置為在同一實例上的Spark節點之間共享核心。

default_tags

ClusterTag

一個對象,包含由Databricks添加的一組標記,而不考慮任何custom_tags,包括:

  • 供應商:磚

  • 創造者:< username-of-creator >

  • ClusterName: < name-of-cluster >

  • ClusterId: < id-of-cluster >

  • 名稱:

    在工作的集群:

  • RunName: < name-of-job >

  • JobId: < id-of-job >

    關於Databricks使用的資源SQL:

  • SqlWarehouseId: < id-of-warehouse >

cluster_log_status

LogSyncStatus

集群日誌下發狀態。

termination_reason

TerminationReason

關於集群終止原因的信息。此字段僅在集群處於終止終止狀態。

請注意

你一定是Databricks的管理員調用此API。

端點

HTTP方法

2.0 /集群/銷

帖子

請確保通用集群配置即使在集群被終止超過30天之後仍然保留。對象總是返回群集列表API。釘住一個已經釘住的集群是沒有效果的。

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/pin——數據{"cluster_id": "1234-567890-reef123"} "
{}

請求結構

字段名

類型

描述

cluster_id

字符串

要固定的集群。此字段為必填項。

拔掉

請注意

你一定是Databricks的管理員調用此API。

端點

HTTP方法

2.0 /集群/拔掉

帖子

方法返回的列表中最終刪除群集列表API。取消未被固定的群集的固定是沒有效果的。

例子

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/unpin——數據{"cluster_id": "1234-567890-reef123"} "
{}

請求結構

字段名

類型

描述

cluster_id

字符串

要解栓的集群。此字段為必填項。

列表

端點

HTTP方法

2.0 /集群列表中

得到

返回關於所有固定集群、活動集群、過去30天內最近終止的最多200個通用集群和過去30天內最近終止的最多30個作業集群的信息。例如,如果過去30天內有1個固定的集群、4個活動的集群、45個被終止的通用集群以及過去30天內被終止的50個作業集群,那麼此API將返回1個固定的集群、4個活動的集群、所有45個被終止的通用集群以及最近被終止的30個作業集群。

例子

卷曲——netc -X GEThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/list|金橋。
“集群”“cluster_id”“1234 - 567890 reef123”“spark_context_id”4020997813441462000“cluster_name”“my-cluster”“spark_version”“8.2.x-scala2.12”“aws_attributes”“zone_id”“us-west-2c”“first_on_demand”1“可用性”“SPOT_WITH_FALLBACK”“spot_bid_price_percent”One hundred.“ebs_volume_count”0},“node_type_id”“i3.xlarge”“driver_node_type_id”“i3.xlarge”“autotermination_minutes”120“enable_elastic_disk”“disk_spec”“disk_count”0},“cluster_source”“用戶界麵”“enable_local_disk_encryption”“instance_source”“node_type_id”“i3.xlarge”},“driver_instance_source”“node_type_id”“i3.xlarge”},“狀態”“終止”“state_message”“不活動的集群終止(不活動120分鍾)。”“start_time”1618263108824“terminated_time”1619746525713“last_state_loss_time”1619739324740“num_workers”30.“default_tags”“供應商”“磚”“創造者”“someone@example.com”“ClusterName”“my-cluster”“ClusterId”“1234 - 567890 reef123”},“creator_user_name”“someone@example.com”“termination_reason”“代碼”“活動”“參數”“inactivity_duration_min”“120”},“類型”“成功”},“init_scripts_safe_mode”},“…”

響應結構

字段名

類型

描述

集群

一個數組的ClusterInfo

集群的列表。

節點類型列表

端點

HTTP方法

2.0 /集群/ list-node-types

得到

返回支持的Spark節點類型的列表。這些節點類型可用於啟動集群。

例子

卷曲——netc -X GEThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/list-node-types|金橋。
“node_type”“node_type_id”“r4.xlarge”“memory_mb”31232“num_cores”4“描述”“r4.xlarge”“instance_type_id”“r4.xlarge”“is_deprecated”“類別”“內存優化”“support_ebs_volumes”真正的“support_cluster_tags”真正的“num_gpus”0“node_instance_type”“instance_type_id”“r4.xlarge”“local_disks”0“local_disk_size_gb”0“instance_family”EC2 r4係列vcpu“swap_size”“10 g”},“is_hidden”“support_port_forwarding”真正的“display_order”0“is_io_cache_enabled”},“…”

響應結構

字段名

類型

描述

node_type

一個數組的NodeType

可用的Spark節點類型列表。

運行時版本

端點

HTTP方法

2.0 /集群/ spark-versions

得到

返回可用的列表運行時版本.這些版本可用於啟動集群。

例子

卷曲——netc -X GEThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/spark-versions|金橋。
“版本”“關鍵”“8.2.x-scala2.12”“名稱”8.2(包括Apache Spark 3.1.1, Scala 2.12)},“…”

響應結構

字段名

類型

描述

版本

一個數組的SparkVersion

所有可用的運行時版本。

列表區域

端點

HTTP方法

2.0 /集群/ list-zones

得到

返回可以在其中創建集群的可用分區列表(例如:us-west-2a)。這些區域可用於啟動集群。

例子

卷曲——netc -X GEThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/list-zones|金橋。
“區域”“us-west-2c”“us-west-2a”“us-west-2b”),“default_zone”“us-west-2c”

響應結構

字段名

類型

描述

一個數組的字符串

可用區域的列表(例如[' us-west-2c ', ' us-east-2 '])。

default_zone

字符串

否= >可用分區zone_id在集群創建請求中提供。

事件

端點

HTTP方法

2.0 /集群/事件

帖子

檢索關於集群活動的事件列表。您可以從活動集群(正在運行、掛起或重新配置)和上次終止後30天內終止的集群中檢索事件。這個API是分頁的。如果有更多事件要讀取,則響應包含請求下一頁事件所需的所有參數。

例子:

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/events——數據@list-events.json|金橋。

list-events.json

“cluster_id”“1234 - 567890 reef123”“start_time”1617238800000“end_time”1619485200000“秩序”“DESC”“抵消”5“限製”5“event_type”“運行”
“事件”“cluster_id”“1234 - 567890 reef123”“時間戳”1619471498409“類型”“運行”“細節”“current_num_workers”2“target_num_workers”2},“…”),“next_page”“cluster_id”“1234 - 567890 reef123”“start_time”1617238800000“end_time”1619485200000“秩序”“DESC”“抵消”10“限製”5},“total_count”25

檢索下一頁事件的示例請求:

卷曲——netrc -X POSThttps://dbc-a1b2345c-d6e7.cloud.www.eheci.com/api/2.0/clusters/events——數據@list-events.json|金橋。

list-events.json

“cluster_id”“1234 - 567890 reef123”“start_time”1617238800000“end_time”1619485200000“秩序”“DESC”“抵消”10“限製”5“event_type”“運行”
“事件”“cluster_id”“1234 - 567890 reef123”“時間戳”1618330776302“類型”“運行”“細節”“current_num_workers”2“target_num_workers”2},“…”),“next_page”“cluster_id”“1234 - 567890 reef123”“start_time”1617238800000“end_time”1619485200000“秩序”“DESC”“抵消”15“限製”5},“total_count”25

請求結構

檢索與特定集群相關的事件。

字段名

類型

描述

cluster_id

字符串

要檢索事件的集群ID。此字段為必填項。

start_time

INT64

開始時間,以epoch毫秒為單位。如果為空,返回從時間起點開始的事件。

end_time

INT64

結束時間,以epoch毫秒為單位。如果為空,則返回到當前時間為止的事件。

訂單

ListOrder

中列出事件的順序;要麼ASCDESC.默認為DESC

event_types

一個數組的ClusterEventType

要篩選的可選事件類型集。如果為空,則返回所有事件類型。

抵消

INT64

結果集中的偏移量。默認為0(沒有偏移量)。當指定了一個偏移量並按降序請求結果時,需要end_time字段。

限製

INT64

要包含在事件頁中的事件的最大數目。默認值為50,最大值為500。

響應結構

字段名

類型

描述

事件

一個數組的ClusterEvent

匹配事件的列表。

next_page

請求結構

檢索下一頁事件所需的參數。如果沒有更多的事件要讀取,則省略。

total_count

INT64

由start_time、end_time和event_type篩選的事件總數。

數據結構

自動定量

定義集群工作者的最小和最大數量的範圍。

字段名

類型

描述

min_workers

INT32

當未充分利用時,集群可以縮小到的最小工作人員數量。它也是集群創建後將擁有的初始工作人員數量。

max_workers

INT32

當過載時,集群可以擴展到的最大工作數。Max_workers必須嚴格大於min_workers。

ClusterInfo

集群元數據。

字段名

類型

描述

num_workers或自動定量

INT32自動定量

如果num_workers,表示該集群應該擁有的工作節點的數量。一個集群有一個Spark驅動程序和num_workers執行程序,總共有num_workers + 1個Spark節點。

注意:在讀取集群的屬性時,該字段反映的是所需的工人數量,而不是工人的實際數量。例如,如果一個集群的大小從5個調整到10個工人,這個字段將立即更新,以反映10個工人的目標大小,而在執行人隨著新節點的提供,將逐漸從5個增加到10個。

如果是自動伸縮,則需要根據負載自動伸縮集群所需的參數。

cluster_id

字符串

集群的規範標識符。這個ID在集群重啟和調整大小時保留,而每個新集群都有一個全局唯一的ID。

creator_user_name

字符串

創造者用戶名。如果用戶已被刪除,則該字段將不包含在響應中。

司機

SparkNode

Spark驅動所在的節點。驅動程序節點包含Spark主程序和Databricks應用程序,後者管理每個筆記本的Spark reps。

執行人

一個數組的SparkNode

Spark執行程序駐留的節點。

spark_context_id

INT64

規範的SparkContext標識符。這個值Spark驅動重新啟動時更改。這一對(cluster_idspark_context_id)是所有Spark上下文的全局唯一標識符。

jdbc_port

INT32

驅動程序節點中Spark JDBC服務器監聽的端口。在執行節點中,沒有服務監聽此端口。

cluster_name

字符串

用戶請求的集群名稱。這並不一定是唯一的。如果在創建時未指定,則集群名稱將是一個空字符串。

spark_version

字符串

集群的運行時版本。方法可以檢索可用運行時版本的列表運行時版本API調用。

spark_conf

SparkConfPair

一個對象,包含一組可選的、用戶指定的Spark配置鍵-值對。您還可以通過將一串額外的JVM選項傳遞給驅動程序和執行程序spark.driver.extraJavaOptions而且spark.executor.extraJavaOptions分別。

火花參看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

與在Amazon Web Services上運行的集群相關的屬性。如果在創建集群時未指定,則將使用一組默認值。

node_type_id

字符串

該字段通過一個值編碼該集群中每個Spark節點可用的資源。例如,Spark節點可以針對內存或計算密集型工作負載進行配置和優化。方法可以檢索可用節點類型的列表節點類型列表API調用。

driver_node_type_id

字符串

Spark驅動的節點類型。該字段是可選的;如果未設置,則驅動程序節點類型將設置為與node_type_id上麵的定義。

ssh_public_keys

一個數組的字符串

SSH公鑰內容,將添加到該集群中的每個Spark節點。可以使用相應的私鑰以用戶名登錄ubuntu在端口2200.最多可以指定10個鍵。

custom_tags

一個數組的ClusterTag

包含一組標記的對象。除default_tags外,Databricks還使用這些標記標記所有集群資源。

請注意

  • 在計算優化和內存優化等遺留節點類型上不支持標記。

  • Databricks最多允許45個自定義標簽。

  • 如果集群是在實例池上創建的,則集群標記不會複製到集群資源中。要標記實例池的資源,請參見custom_tags字段實例池API 2.0

cluster_log_conf

ClusterLogConf

Spark日誌發送到長期存儲目的地的配置。一個集群隻能指定一個目標。如果指定了conf參數,則每天將日誌下發到目的地5分鍾.驅動日誌的目的地為<目標> / < cluster-ID > /司機, executor日誌的目的地為<目標> / < cluster-ID > /執行人

init_scripts

一個數組的InitScriptInfo

用於存儲初始化腳本的配置。可以指定任意數量的目的地。這些腳本按照所提供的順序依次執行。如果指定cluster_log_conf參數,則發送init腳本日誌到<目標> / < cluster-ID > / init_scripts

docker_image

DockerImage

Docker映像自定義容器

spark_env_vars

SparkEnvPair

一個對象,它包含一組可選的、用戶指定的環境變量鍵值對。表單(X,Y)的鍵值對按如下方式導出(即,出口X = Y),同時啟動司機和工人。

指定一個附加的集合SPARK_DAEMON_JAVA_OPTS,我們建議將它們添加到SPARK_DAEMON_JAVA_OPTS美元如下例所示。這確保了所有默認數據庫管理的環境變量也被包括在內。

Spark環境變量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

autotermination_minutes

INT32

在此時間內處於不活動狀態後自動終止集群。如果未設置,此集群將不會自動終止。如果指定了該閾值,則該閾值必須在10到10000分鍾之間。還可以將該值設置為0以顯式禁用自動終止。

enable_elastic_disk

保齡球

自動伸縮本地存儲:當啟用時,當Spark worker的磁盤空間不足時,該集群將動態地獲取額外的磁盤空間。該特性需要特定的AWS權限才能正常工作-請參考自動定量本地存儲獲取詳細信息。

instance_pool_id

字符串

集群所屬實例池的可選ID。指獲取詳細信息。

cluster_source

ClusterSource

確定集群是由用戶通過UI創建的,還是由Databricks Jobs調度程序創建的,還是通過API請求創建的,還是由Delta Live Tables運行時創建的。示例值包括API用戶界麵,或管道

狀態

ClusterState

集群狀態。

state_message

字符串

與最近的狀態轉換相關的消息(例如,集群為什麼輸入終止狀態)。該字段是非結構化的,其確切格式可能會更改。

start_time

INT64

接收集群創建請求的時間(以epoch毫秒為單位)等待狀態)。

terminated_time

INT64

如果適用,集群終止的時間(以epoch毫秒為單位)。

last_state_loss_time

INT64

集群驅動程序最近一次失去狀態的時間(由於重新啟動或驅動程序失敗)。

last_activity_time

INT64

集群上一次活動的時間(以epoch毫秒為單位)。如果集群上至少有一個命令未完成,則該集群為活動的。該字段在集群到達a時可用運行狀態。對該字段的更新是盡最大努力進行的。某些版本的Spark不支持集群活動報告。指自動終止獲取詳細信息。

cluster_memory_mb

INT64

集群內存總量,以兆為單位。

cluster_cores

浮動

此集群可用的CPU核數。這可能是小數,因為某些節點類型被配置為在同一實例上的Spark節點之間共享核心。

default_tags

ClusterTag

一個對象,包含由Databricks添加的一組標記,而不考慮任何custom_tags,包括:

  • 供應商:磚

  • 創造者:< username-of-creator >

  • ClusterName: < name-of-cluster >

  • ClusterId: < id-of-cluster >

  • 名稱:

    在工作的集群:

  • RunName: < name-of-job >

  • JobId: < id-of-job >

    關於Databricks使用的資源SQL:

  • SqlWarehouseId: < id-of-warehouse >

cluster_log_status

LogSyncStatus

集群日誌下發狀態。

termination_reason

TerminationReason

關於集群終止原因的信息。此字段僅在集群處於終止終止狀態。

ClusterEvent

集群事件信息。

字段名

類型

描述

cluster_id

字符串

集群的規範標識符。此字段為必填項。

時間戳

INT64

事件發生時的時間戳,存儲為自unix紀元以來的毫秒數。由Timeline服務分配。

類型

ClusterEventType

事件類型。此字段為必填項。

細節

EventDetails

事件的細節。此字段為必填項。

ClusterEventType

集群事件類型。

事件類型

描述

創建

表示正在創建集群。

DID_NOT_EXPAND_DISK

指示磁盤空間不足,但增加磁盤將使其超過最大容量。

EXPANDED_DISK

磁盤空間不足,磁盤進行了擴容。

FAILED_TO_EXPAND_DISK

表示磁盤空間不足,無法擴展磁盤空間。

INIT_SCRIPTS_STARTING

指示集群作用域的初始化腳本已經啟動。

INIT_SCRIPTS_FINISHED

指示集群作用域的初始化腳本已經完成。

開始

表示集群正在啟動。

重新啟動

表示集群正在啟動。

終止

表示集群正在被終止。

編輯

指示集群已被編輯。

運行

表示集群已創建完成。包括集群中的節點數量,以及無法獲取某些節點時的失敗原因。

調整

指示集群的目標大小的變化(增大或減小)。

UPSIZE_COMPLETED

表示節點已加入集群。包括集群中的節點數量,以及無法獲取某些節點時的失敗原因。

NODES_LOST

表示集群中有部分節點丟失。

DRIVER_HEALTHY

指示驅動程序運行正常,且集群已準備好使用。

DRIVER_UNAVAILABLE

表示驅動不可用。

SPARK_EXCEPTION

指示從驅動程序拋出Spark異常。

DRIVER_NOT_RESPONDING

指示驅動程序啟動但沒有響應,可能是由於GC。

DBFS_DOWN

驅動處於啟動狀態,但DBFS處於關閉狀態。

METASTORE_DOWN

說明驅動在上升,但轉移瘤在下降。

NODE_BLACKLISTED

表示該節點不被Spark允許。

固定

指示群集已固定。

拔掉

指示群集已解除固定。

EventDetails

集群事件的詳細信息。

字段名

類型

描述

current_num_workers

INT32

集群中的節點數量。

target_num_workers

INT32

集群中的目標節點數。

previous_attributes

AwsAttributes

編輯集群之前的集群屬性。

屬性

AwsAttributes

  • 對於已創建的集群,為集群的屬性。

  • 對於已編輯的集群,為集群的新屬性。

previous_cluster_size

ClusterSize

編輯或調整大小之前的集群大小。

cluster_size

ClusterSize

在集群創建或編輯中設置的集群大小。

導致

ResizeCause

目標尺寸變化的原因。

原因

TerminationReason

終止原因:

  • 在一個終止事件,終止的原因。

  • 在一個RESIZE_COMPLETE事件,指示獲取某些節點失敗的原因。

用戶

字符串

導致事件發生的用戶。(如果是由Databricks完成,則為空。)

AwsAttributes

創建與Amazon Web Services相關的集群時設置的屬性。

字段名

類型

描述

first_on_demand

INT32

集群的第一個first_on_demand節點將放置在按需實例上。如果該值大於0,則集群驅動程序節點將放在按需實例上。如果該值大於或等於當前集群大小,則所有節點都將放在按需實例上。如果該值小於當前集群大小,first_on_demand節點將放在按需實例上,其餘節點將放在按需實例上可用性實例。該值不影響集群的大小,並且在集群的生命周期內不能更改。

可用性

AwsAvailability

用於first_on_demand節點之後的所有後續節點的可用性類型。注意:如果first_on_demand為零,則該可用性類型將用於整個集群。

zone_id

字符串

集群所在可用分區/數據中心的標識符。你有三個選擇:

以字符串形式指定可用分區,例如:“us-west-2a”。提供的可用分區必須與Databricks部署在同一區域。例如,如果Databricks部署在“us-east-1”區域,則“us-west-2a”不是有效的區域ID。

啟用自動可用分區選擇(" Auto-AZ "),通過設置值“auto”。Databricks根據工作空間子網中可用的ip選擇可用分區,如果AWS返回容量不足的錯誤,則在其他可用分區中重試。

不指定值.如果未指定,將使用默認區域。

方法可以找到可用分區的列表以及默認值列表區域API。

instance_profile_arn

字符串

此集群的節點將僅放置在具有此實例配置文件的AWS實例上。如果省略,節點將放在沒有實例配置文件的實例上。實例概要文件以前必須由帳戶管理員添加到Databricks環境中。

此功能可能隻對某些客戶計劃可用。

spot_bid_price_percent

INT32

AWS現貨實例的最大價格,占對應實例類型按需價格的百分比。例如,如果該字段設置為50,集群需要一個新的i3.xlarge現貨舉例,則最高價格為按需價格的一半i3.xlarge實例。類似地,如果該字段設置為200,則最大價格是按需價格的兩倍i3.xlarge實例。如果不指定,默認值為100。當為該集群請求現貨實例時,隻考慮其最大價格百分比與該字段匹配的現貨實例。為了安全起見,我們要求這個字段不超過10000個。

ebs_volume_type

EbsVolumeType

將與此集群一起啟動的EBS卷的類型。

ebs_volume_count

INT32

為每個實例啟動的卷數。您最多可以選擇10卷。此特性僅對支持的節點類型啟用。遺留節點類型不能指定自定義EBS卷。對於沒有實例存儲的節點類型,至少需要指定一個EBS卷;否則,創建集群失敗。

這些EBS卷將在/ ebs0/ ebs1等。實例存儲卷將掛載在/ local_disk0/ local_disk1等。

如果連接了EBS卷,Databricks將配置Spark僅將EBS卷用於臨時存儲,因為大小不一致的臨時設備可能導致磁盤利用率低。如果沒有連接EBS卷,Databricks將配置Spark使用實例存儲卷。

如果指定了EBS卷,則Spark配置spark.local.dir將被覆蓋。

ebs_volume_size

INT32

為每個實例啟動的每個EBS卷(在GiB中)的大小。對於通用SSD盤,取值範圍為100 ~ 4096。對於吞吐量優化的HDD,該值必須在500 - 4096的範圍內。無法為遺留節點類型指定自定義EBS卷(memory-optimized而且compute-optimized).

ebs_volume_iops

INT32

每個EBS gp3卷的IOPS。

取值範圍為3000 ~ 16000。

IOPS和吞吐量根據AWS文檔計算,以匹配相同卷大小下gp2卷的最大性能。

有關更多信息,請參見EBS容量限製計算器

ebs_volume_throughput

INT32

每個EBS gp3卷的吞吐量,單位為MiB /秒。

該值必須在125到1000之間。

如果既不ebs_volume_iops也不ebs_volume_throughput,則從磁盤大小推斷出值:

磁盤大小

IOPS

吞吐量

大於1000

3倍的磁盤大小,高達16000

250

在170到1000之間

3000

250

低於170

3000

125

ClusterAttributes

創建集群時設置的公共屬性集。在集群的生命周期內不能更改這些屬性。

字段名

類型

描述

cluster_name

字符串

用戶請求的集群名稱。這並不一定是唯一的。如果在創建時未指定,則集群名稱將是一個空字符串。

spark_version

字符串

集群的運行時版本,例如“5.0.x-scala2.11”。方法可以檢索可用運行時版本的列表運行時版本API調用。

spark_conf

SparkConfPair

一個對象,包含一組可選的、用戶指定的Spark配置鍵-值對。您還可以通過將一串額外的JVM選項傳遞給驅動程序和執行程序spark.driver.extraJavaOptions而且spark.executor.extraJavaOptions分別。

火花參看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

與在Amazon Web Services上運行的集群相關的屬性。如果在創建集群時未指定,則將使用一組默認值。

node_type_id

字符串

該字段通過一個值編碼該集群中每個Spark節點可用的資源。例如,可以針對內存或計算密集型工作負載提供和優化Spark節點節點類型列表API調用。

driver_node_type_id

字符串

Spark驅動的節點類型。該字段是可選的;如果未設置,則驅動程序節點類型將設置為與node_type_id上麵的定義。

ssh_public_keys

一個數組的字符串

SSH公鑰內容,將添加到該集群中的每個Spark節點。可以使用相應的私鑰以用戶名登錄ubuntu在端口2200.最多可以指定10個鍵。

custom_tags

ClusterTag

一個對象,包含一組用於集群資源的標記。除default_tags外,Databricks還使用這些標記標記所有集群資源。

請注意

  • 在計算優化和內存優化等遺留節點類型上不支持標記。

  • Databricks最多允許45個自定義標簽。

  • 如果集群是在實例池上創建的,則集群標記不會複製到集群資源中。要標記實例池的資源,請參見custom_tags字段實例池API 2.0

cluster_log_conf

ClusterLogConf

Spark日誌發送到長期存儲目的地的配置。一個集群隻能指定一個目標。如果指定了conf參數,則每天將日誌下發到目的地5分鍾.驅動日誌的目的地為<目標> / < cluster-ID > /司機, executor日誌的目的地為<目標> / < cluster-ID > /執行人

init_scripts

一個數組的InitScriptInfo

用於存儲初始化腳本的配置。可以指定任意數量的目的地。這些腳本按照所提供的順序依次執行。如果cluster_log_conf時,初始化腳本日誌發送到<目標> / < cluster-ID > / init_scripts

docker_image

DockerImage

Docker映像自定義容器

spark_env_vars

SparkEnvPair

一個對象,它包含一組可選的、用戶指定的環境變量鍵值對。表單(X,Y)的鍵值對按如下方式導出(即,出口X = Y),同時啟動司機和工人。

以便指定一個額外的集合SPARK_DAEMON_JAVA_OPTS,我們建議將它們添加到SPARK_DAEMON_JAVA_OPTS美元如下例所示。這確保了所有默認數據庫管理的環境變量也被包括在內。

Spark環境變量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

autotermination_minutes

INT32

在此時間內處於不活動狀態後自動終止集群。如果未設置,此集群將不會自動終止。如果指定了該閾值,則該閾值必須在10到10000分鍾之間。還可以將該值設置為0以顯式禁用自動終止。

enable_elastic_disk

保齡球

自動伸縮本地存儲:當啟用時,當Spark worker的磁盤空間不足時,該集群將動態地獲取額外的磁盤空間。該特性需要特定的AWS權限才能正常工作。指自動定量本地存儲獲取詳細信息。

instance_pool_id

字符串

集群所屬實例池的可選ID。指獲取詳細信息。

cluster_source

ClusterSource

確定集群是由用戶通過UI創建的,還是由Databricks Jobs調度程序創建的,還是通過API請求創建的,還是由Delta Live Tables運行時創建的。示例值包括API用戶界麵,或管道

policy_id

字符串

一個集群政策ID。

cluster_mount_infos

一個數組的MountInfo

一個對象,包含用於網絡文件係統掛載的可選規範。

ClusterSize

集群大小規格。

字段名

類型

描述

num_workers或自動定量

INT32自動定量

如果num_workers,表示該集群應該擁有的工作節點的數量。一個集群有一個Spark驅動程序和num_workers執行程序,總共有num_workers + 1個Spark節點。

在讀取集群的屬性時,該字段反映的是所需的工人數量,而不是工人的實際數量。例如,如果一個集群從5個工人調整到10個工人,這個字段將被更新以反映10個工人的目標大小,而在提供新節點時,執行程序中列出的工人逐漸從5個增加到10個。

如果是自動伸縮,則需要根據負載自動伸縮集群所需的參數。

ListOrder

基於列表的查詢的通用排序枚舉。

訂單

描述

DESC

降序排列。

ASC

升序排序。

ResizeCause

調整集群大小的原因。

導致

描述

自動定量

根據負載自動調整大小。

USER_REQUEST

用戶請求新的大小。

AUTORECOVERY

自動恢複監視器在丟失節點後調整了集群的大小。

ClusterLogConf

集群日誌的路徑。

字段名

類型

描述

dbfs和s3

DbfsStorageInfo

S3StorageInfo

集群日誌的DBFS位置。必須提供目的地。例如,“dbfs”“目的地”“dbfs: / home / cluster_log”

集群日誌的S3位置。目的地,要麼地區倉庫必須提供。例如,“s3”:“目的地”“s3: / / cluster_log_bucket /前綴”,“地區”“us-west-2”

InitScriptInfo

初始化腳本路徑。有關使用初始化腳本的說明磚容器服務,請參閱使用初始化腳本

請注意

該文件存儲類型僅適用於使用磚容器服務

字段名

類型

描述

dbfs或文件或S3

DbfsStorageInfo

FileStorageInfo

S3StorageInfo

初始化腳本的DBFS位置。必須提供目的地。例如,“dbfs”“目的地”“dbfs: / home / init_script”

初始化腳本的文件位置。必須提供目的地。例如,“文件”“目的地”“文件:/我的/地方/ file.sh”

初始化腳本的S3位置。必須提供目的地和地區或倉庫。例如,“s3”:“目的地”“s3: / / init_script_bucket /前綴”,“地區”“us-west-2”

ClusterTag

集群標簽定義。

類型

描述

字符串

標簽的鍵。密鑰長度必須在1到127個UTF-8字符之間。有關所有限製的列表,請參閱AWS標簽限製:https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/Using_Tags.html#tag-restrictions

字符串

標記的值。長度必須小於等於255個UTF-8字符。有關所有限製的列表,請參閱AWS標簽限製:https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/Using_Tags.html#tag-restrictions

DbfsStorageInfo

DBFS存儲信息。

字段名

類型

描述

目的地

字符串

DBFS目的地。例子:dbfs: /我/路徑

FileStorageInfo

文件存儲信息。

請注意

此位置類型僅可用於使用磚容器服務

字段名

類型

描述

目的地

字符串

文件的目的地。例子:文件:/我/ file.sh

DockerImage

Docker映像連接信息。

類型

描述

url

字符串

Docker映像的URL。

basic_auth

DockerBasicAuth

Docker存儲庫的基本身份驗證信息。

DockerBasicAuth

Docker存儲庫基本身份驗證信息。

描述

用戶名

Docker存儲庫的用戶名。

密碼

Docker存儲庫的密碼。

LogSyncStatus

日誌發送狀態。

字段名

類型

描述

last_attempted

INT64

最後一次嚐試的時間戳。如果最後一次嚐試失敗,last_exception將包含最後一次嚐試中的異常。

last_exception

字符串

在最後一次嚐試中拋出的異常,如果在最後一次嚐試中沒有異常,則該異常將為空(在響應中省略)。

NodeType

對Spark節點類型的描述,包括節點的維度和將承載該節點的實例類型。

字段名

類型

描述

node_type_id

字符串

此節點類型的唯一標識符。此字段為必填項。

memory_mb

INT32

該節點類型可使用的內存(MB)。此字段為必填項。

num_cores

浮動

該節點類型的可用CPU核數。如果計算機實例上的核數不能被該計算機上的Spark節點數整除,則該值可以為小數。此字段為必填項。

描述

字符串

與此節點類型關聯的字符串描述。此字段為必填項。

instance_type_id

字符串

此節點所運行的硬件類型的標識符。此字段為必填項。

is_deprecated

保齡球

節點類型是否已棄用。未棄用的節點類型提供了更好的性能。

node_info

ClusterCloudProviderNodeInfo

雲提供商報告的節點類型信息。

ClusterCloudProviderNodeInfo

關於雲提供者提供的實例的信息。

字段名

類型

描述

狀態

ClusterCloudProviderNodeStatus

雲提供商報告的狀態。

available_core_quota

INT32

CPU內核可用配額。

total_core_quota

INT32

CPU核心總配額。

ClusterCloudProviderNodeStatus

雲提供商提供的實例的狀態。

狀態

描述

NotEnabledOnSubscription

無法使用節點類型進行訂閱。

NotAvailableInRegion

區域中沒有節點類型。

ParameterPair

參數,提供有關集群終止原因的附加信息。

類型

描述

TerminationParameter

終止信息的類型。

字符串

終止信息。

SparkConfPair

Spark配置鍵值對。

類型

描述

字符串

配置屬性名稱。

字符串

配置屬性值。

SparkEnvPair

Spark環境變量鍵值對。

重要的

在作業集群中指定環境變量時,此數據結構中的字段隻接受拉丁字符(ASCII字符集)。使用非ascii字符將返回錯誤。無效的非ascii字符的例子有中文、日文漢字和表情符號。

類型

描述

字符串

環境變量名。

字符串

環境變量值。

SparkNode

Spark驅動程序或執行器配置。

字段名

類型

描述

private_ip

字符串

私有IP地址(通常是10.x.x x。Spark節點的x地址)。這與主機實例的私有IP地址不同。

public_dns

字符串

該節點的公網DNS地址。該地址可用於訪問驅動節點上的Spark JDBC服務器。要與JDBC服務器通信,必須通過通過AWS控製台將安全組規則添加到“不受管理的工作者”安全組來手動授權流量。

node_id

字符串

此節點的全局唯一標識符。

即instance_id

字符串

來自雲提供者的主機實例的全局唯一標識符。

start_timestamp

INT64

Spark節點啟動時的時間戳(毫秒)。

node_aws_attributes

SparkNodeAwsAttributes

特定於Spark節點AWS的屬性。

host_private_ip

字符串

主機實例的私有IP地址。

SparkVersion

Databricks集群運行時版本。

字段名

類型

描述

關鍵

字符串

磚的運行時版本的鍵,例如7.3.x-scala2.12.類提供的值spark_version創建新集群時。準確的運行時版本可能隨著時間的推移而更改為“通配符”版本(即,7.3.x-scala2.12是一個“通配符”版本)與小錯誤修複。

的名字

字符串

運行時版本的描述性名稱,例如“Databricks runtime 7.3 LTS”。

TerminationReason

集群終止的原因。

字段名

類型

描述

代碼

TerminationCode

指示集群終止原因的狀態碼。

類型

TerminationType

指示群集終止的原因。

參數

ParameterPair

對象,該對象包含一組參數,這些參數提供有關集群終止原因的信息。

PoolClusterTerminationCode

狀態碼,指示集群因池故障而終止的原因。

代碼

描述

INSTANCE_POOL_MAX_CAPACITY_FAILURE

池的最大容量已達到。

INSTANCE_POOL_NOT_FOUND_FAILURE

集群指定的池不再活動或不存在。

ClusterSource

創建集群的服務。

服務

描述

用戶界麵

通過UI創建的集群。

工作

由Databricks作業調度器創建的集群。

API

通過API調用創建的集群。

ClusterState

集群的狀態。允許的狀態轉換如下:

  • 等待->運行

  • 等待->終止

  • 運行->調整

  • 運行->重新啟動

  • 運行->終止

  • 重新啟動->運行

  • 重新啟動->終止

  • 調整->運行

  • 調整->終止

  • 終止->終止

狀態

描述

等待

表示集群正在創建中。

運行

指示集群已啟動,可以使用。

重新啟動

表示集群正在重新啟動過程中。

調整

表示集群處於增加或刪除節點的過程中。

終止

表示集群處於銷毀過程中。

終止

表示集群已被成功銷毀。

錯誤

不再使用此狀態。用於指示創建集群失敗。終止而且終止而不是使用。

未知的

表示集群處於未知狀態。集群不應該處於這種狀態。

TerminationCode

指示集群終止原因的狀態代碼。

代碼

描述

USER_REQUEST

用戶直接終止集群。參數應該包括用戶名字段,指示終止群集的特定用戶。

JOB_FINISHED

集群由作業啟動,並在作業完成時終止。

不活動

集群處於空閑狀態,因此已終止。

CLOUD_PROVIDER_SHUTDOWN

承載Spark驅動程序的實例被雲提供商終止。例如,在AWS中,AWS可能會退出實例並直接關閉它們。參數應該包括aws_instance_state_reason字段,指示aws提供的終止實例的原因。

COMMUNICATION_LOST

Databricks與驅動程序實例上的服務失去連接。例如,當雲網絡基礎設施出現問題或實例本身不健康時,就會發生這種情況。

CLOUD_PROVIDER_LAUNCH_FAILURE

Databricks在請求實例啟動集群時遇到了雲提供程序失敗。例如,AWS限製正在運行的實例和EBS卷的數量。如果您要求Databricks啟動需要超出AWS限製的實例或EBS卷的集群,則集群將以此狀態代碼失敗。參數應該包括其中之一aws_api_error_codeaws_instance_state_reason,或aws_spot_request_status表示aws提供的Databricks無法為集群請求所需實例的原因。

SPARK_STARTUP_FAILURE

集群初始化失敗。處理步驟可能的原因包括為Spark創建環境失敗,或者啟動Spark主進程和輔助進程時出現問題。

INVALID_ARGUMENT

由於用戶指定的參數無效,無法啟動集群。例如,用戶可能為集群指定了無效的運行時版本。

UNEXPECTED_LAUNCH_FAILURE

在啟動此集群時,Databricks未能完成關鍵設置步驟,導致集群終止。

INTERNAL_ERROR

Databricks遇到意外錯誤,迫使正在運行的集群終止。有關更多詳細信息,請聯係Databricks支持。

SPARK_ERROR

Spark驅動啟動失敗。處理步驟可能的原因包括不兼容的庫和初始化腳本損壞了Spark容器。

METASTORE_COMPONENT_UNHEALTHY

由於無法觸及外部轉移瘤,群集啟動失敗。指故障排除

DBFS_COMPONENT_UNHEALTHY

由於無法到達數據庫文件係統(DBFS),集群啟動失敗。

DRIVER_UNREACHABLE

Databricks無法訪問Spark驅動程序,因為它無法訪問。

DRIVER_UNRESPONSIVE

Databricks無法訪問Spark驅動程序,因為它沒有響應。

INSTANCE_UNREACHABLE

Databricks無法訪問實例以啟動集群。這可能是一個短暫的網絡問題。如果問題仍然存在,這通常表明網絡環境配置錯誤。

CONTAINER_LAUNCH_FAILURE

Databricks無法在群集的工作節點上啟動容器。讓管理員檢查網絡配置。

INSTANCE_POOL_CLUSTER_FAILURE

池支持的集群特定故障。指獲取詳細信息。

REQUEST_REJECTED

數據庫目前無法處理此請求。稍後重試,如果問題仍然存在,請聯係Databricks。

INIT_SCRIPT_FAILURE

Databricks不能在集群的一個節點上加載和運行集群範圍內的初始化腳本,或者初始化腳本以一個非零的退出代碼終止。指Init腳本日誌

TRIAL_EXPIRED

Databricks試用訂閱已過期。

TerminationType

集群終止的原因。

類型

描述

成功

終止成功了。

CLIENT_ERROR

Non-retriable。客戶端必須在重新嚐試創建集群之前修複參數。

SERVICE_FAULT

磚服務的問題。客戶端可以重試。

CLOUD_FAILURE

雲提供商基礎設施問題。客戶端可以在解決基礎問題後重試。

TerminationParameter

鍵,提供關於集群終止原因的附加信息。

關鍵

描述

用戶名

終止集群的用戶的用戶名。

aws_api_error_code

AWS提供錯誤代碼,描述無法提供集群節點的原因。例如,InstanceLimitExceeded表示已超過特定實例類型的EC2實例的限製。供參考,請參閱:https://docs.aws.amazon.com/AWSEC2/latest/APIReference/query-api-troubleshooting.html

aws_instance_state_reason

AWS提供了描述驅動程序節點終止原因的狀態原因。例如,客戶端。VolumeLimitExceeded表示已超過EBS卷或EBS卷存儲總量的限製。供參考,請參閱https://docs.aws.amazon.com/AWSEC2/latest/APIReference/API_StateReason.html

aws_spot_request_status

描述無法滿足現貨請求的原因。例如,price-too-low表示最大價格低於當前的現貨價格。供參考,請參閱:https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/spot-bid-status.html#spot-instance-bid-status-understand

aws_spot_request_fault_code

提供實時請求失敗時的附加詳細信息。例如InsufficientFreeAddressesInSubnet表示子網沒有空閑的IP地址來容納新實例。供參考,請參閱https://docs.aws.amazon.com/cli/latest/reference/ec2/describe-spot-instance-requests.html

aws_impaired_status_details

AWS提供的狀態檢查失敗,導致節點丟失。此狀態可能對應於失敗的實例或係統檢查。供參考,請參閱https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html

aws_instance_status_event

AWS提供了調度事件(例如重新啟動),這會導致節點丟失。供參考,請參閱https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html

aws_error_message

來自AWS的各種故障的可讀上下文。該字段是非結構化的,其確切格式可能會更改。

databricks_error_message

可能解釋集群終止原因的附加上下文。該字段是非結構化的,其確切格式可能會更改。

inactivity_duration_min

空閑集群在此段時間內處於不活動狀態後被關閉。

即instance_id

承載Spark驅動程序的實例的ID。

instance_pool_id

集群正在使用的實例池的ID。

instance_pool_error_code

錯誤代碼針對特定於某個池的集群故障。

S3StorageInfo

S3存儲信息。

字段名

類型

描述

目的地

字符串

S3的目的地。例如:s3: / /桶/ some-prefix您必須使用實例概要配置集群,並且實例概要必須具有對目標的寫訪問權。你不能使用AWS鍵。

地區

字符串

S3。例如:us-west-2.必須設置區域或倉庫。如果兩者都設置,則使用warehouse。

倉庫

字符串

S3倉庫。例如:https://s3-us-west-2.amazonaws.com.必須設置區域或倉庫。如果兩者都設置,則使用warehouse。

enable_encryption

保齡球

(可選)啟用服務器端加密,默認情況下。

encryption_type

字符串

(可選)加密類型,可以是sse-s3sse-kms.僅在啟用加密時使用,默認類型為sse-s3

kms_key

字符串

(可選)啟用加密且加密類型為時使用的KMS密鑰sse-kms

canned_acl

字符串

(可選)設置屏蔽訪問控製列表。例如:bucket-owner-full-control.如果設置了canned_acl,則集群實例配置文件必須為s3: PutObjectAcl目的桶和前綴的權限。可以在以下網站找到可能的屏蔽acl的完整列表https://docs.aws.amazon.com/AmazonS3/latest/dev/acl-overview.html#canned-acl.默認情況下,隻有對象所有者擁有完全控製權。如果使用跨帳戶角色寫入數據,則可能需要設置bucket-owner-full-control使桶所有者能夠讀取日誌。

SparkNodeAwsAttributes

特定於Spark節點AWS的屬性。

字段名

類型

描述

is_spot

保齡球

該節點是否位於Amazon現貨實例上。

AwsAvailability

為集群設置節點時支持的AWS可用性類型集。

類型

描述

現貨

使用實例。

ON_DEMAND

使用隨需應變的實例。

SPOT_WITH_FALLBACK

最好使用現貨實例,但如果無法獲得現貨實例(例如,AWS現貨價格太高),則退回到按需實例。

EbsVolumeType

Databricks支持gp2和gp3 EBS卷類型。按照以下的說明操作管理SSD存儲為您的工作區選擇gp2或gp3。

類型

描述

GENERAL_PURPOSE_SSD

使用AWS EBS卷提供額外的存儲。

THROUGHPUT_OPTIMIZED_HDD

使用AWS st1卷提供額外的存儲。

MountInfo

掛載網絡文件係統的配置

字段名

類型

描述

network_filesystem_info

NetworkFileSystemInfo

對象定義網絡文件係統的參數。

remote_mount_dir_path

字符串

要掛載的網絡文件係統中目錄的位置。

local_mount_dir_path

字符串

Spark容器中的掛載點。

NetworkFileSystemInfo

網絡文件係統參數

字段名

類型

描述

server_address

字符串

網絡文件係統服務器的DNS名稱。

mount_options

字符串

傳遞給mount命令的選項列表,用逗號分隔。該字段是可選的。