Delta Live Tables API指南

Delta Live Tables API允許您創建、編輯、刪除、啟動和查看有關管道的詳細信息。

重要的

要訪問Databricks的REST api,您必須進行身份驗證

創建管道

端點

HTTP方法

2.0 /管道

帖子

創建一個新的Delta Live Tables管道。

例子

這個例子創建了一個新的觸發管道。

請求

卷曲——netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道——數據@pipeline-settings.json

pipeline-settings.json

“名稱”維基百科管道(SQL)“存儲”“/用戶/用戶名/數據”“集群”“標簽”“默認”“自動定量”“min_workers”1“max_workers”5],“庫”“筆記本”“路徑”/Users/username/DLT notebook /Delta Live Tables快速入門(SQL)],“連續”

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

響應

“pipeline_id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”

請求結構

看到PipelineSettings

響應結構

字段名

類型

描述

pipeline_id

字符串

新創建的管道的唯一標識符。

編輯管道

端點

HTTP方法

2.0 /管道/ {pipeline_id}

更新現有管道的設置。

例子

此示例添加了一個目標參數連接到帶有ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求

curl——netc -X PUThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5——數據@pipeline-settings.json

pipeline-settings.json

“id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“名稱”維基百科管道(SQL)“存儲”“/用戶/用戶名/數據”“集群”“標簽”“默認”“自動定量”“min_workers”1“max_workers”5],“庫”“筆記本”“路徑”/Users/username/DLT notebook /Delta Live Tables快速入門(SQL)],“目標”“wikipedia_quickstart_data”“連續”

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

請求結構

看到PipelineSettings

刪除管道

端點

HTTP方法

2.0 /管道/ {pipeline_id}

刪除

從Delta Live Tables係統中刪除一個管道。

例子

此示例刪除帶有ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求

curl——netrc -X DELETEhttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

啟動管道更新

端點

HTTP方法

2.0 /管道/ {pipeline_id} /更新

帖子

啟動管道的更新。您可以開始對整個管道圖進行更新,或者對特定表進行選擇性更新。

例子

開始全麵刷新

這個例子對具有ID的管道以完全刷新的方式啟動更新a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求
卷曲——netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新——數據'{"full_refresh": "true"}'

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

響應
“update_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”“request_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”

啟動所選表的更新

此示例啟動更新,刷新sales_orders_cleaned而且sales_order_in_chicago表在管道中的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求
卷曲——netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新——數據“{"refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"]}”

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

響應
“update_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”“request_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”

啟動所選表的完整更新

的更新sales_orders_cleaned而且sales_order_in_chicago表,並與完整刷新的更新beplay体育app下载地址而且sales_orders_raw表在管道中的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求
卷曲——netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新——數據“{"refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["cbeplay体育app下载地址ustomers", "sales_orders_raw"]}”

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

響應
“update_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”“request_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”

請求結構

字段名

類型

描述

full_refresh

布爾

是否重新處理所有數據。如果真正的, Delta Live Tables係統將在運行管道之前重置所有可重置的表。

該字段是可選的。

默認值為

返回一個錯誤full_refesh都是真的refresh_selectionfull_refresh_selection是集。

refresh_selection

的數組字符串

要更新的表的列表。使用refresh_selection啟動對管道圖中所選表集的刷新。

該字段是可選的。如果兩個refresh_selection而且full_refresh_selection為空,則刷新整個管道圖。

如果有以下情況返回錯誤:

  • full_refesh是真的refresh_selection是集。

  • 一個或多個指定的表在管道圖中不存在。

full_refresh_selection

的數組字符串

要用完全刷新更新的表列表。使用full_refresh_selection開始更新選定的一組表。在Delta Live tables係統啟動更新之前重置指定表的狀態。

該字段是可選的。如果兩個refresh_selection而且full_refresh_selection為空,則刷新整個管道圖。

如果有以下情況返回錯誤:

  • full_refesh是真的refresh_selection是集。

  • 一個或多個指定的表在管道圖中不存在。

  • 一個或多個指定的表是不可重置的。

響應結構

字段名

類型

描述

update_id

字符串

新創建的更新的唯一標識符。

request_id

字符串

啟動更新的請求的唯一標識符。

獲取管道更新請求的狀態

端點

HTTP方法

2.0 /管道/ {pipeline_id} /請求/ {request_id}

得到

獲取與之關聯的管道更新的狀態和信息request_id,在那裏request_id是發起管道更新的請求的唯一標識符。如果更新被重試或重新啟動,那麼新的更新將繼承request_id。

例子

對於具有ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5,此示例返回與請求ID關聯的更新的狀態和信息a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429

請求

卷曲——netc -X GEThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /請求/ a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

響應

“狀態”“終止”“latest_update”:{“pipeline_id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“update_id”“90 da8183 - 89 - de - 4715 - b5a9 c243e67f0093”“配置”:{“id”“aae89b88-e97e-40c4-8e1a-1b7ac76657e8”“名稱”“零售(SQL)”“存儲”“/用戶/用戶名/數據”“配置”:{“pipelines.numStreamRetryAttempts”“5”},“集群”:[“標簽”“默認”“自動定量”:{“min_workers”1“max_workers”5],“庫”:[“筆記本”:{“路徑”/Users/username/DLT notebook /Delta Live Tables快速入門(SQL)],“連續”“發展”真正的“光子”真正的“版”“高級”“通道”“當前”},“原因”“API_CALL”“狀態”“完成”“cluster_id”“1234 - 567891 abcde123”“creation_time”1664304117145“full_refresh”“request_id”“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”

響應結構

字段名

類型

描述

狀態

字符串

管道更新請求的狀態。之一

  • 活躍的:此請求的更新正在積極運行,或可能在新的更新中重試。

  • 終止:請求被終止,不再重試或重啟。

pipeline_id

字符串

管道的唯一標識符。

update_id

字符串

更新的唯一標識符。

配置

PipelineSettings

管道設置。

導致

字符串

更新的觸發器。之一API_CALLRETRY_ON_FAILURESERVICE_UPGRADESCHEMA_CHANGEJOB_TASK,或USER_ACTION

狀態

字符串

更新的狀態。之一排隊創建WAITING_FOR_RESOURCES初始化重置SETTING_UP_TABLES運行停止完成失敗的,或取消了

cluster_id

字符串

運行更新的集群的標識符。

creation_time

INT64

創建更新時的時間戳。

full_refresh

布爾

此更新是否在運行前重置所有表

refresh_selection

的數組字符串

要在不進行完全刷新的情況下進行更新的表列表。

full_refresh_selection

的數組字符串

要用完全刷新更新的表列表。

request_id

字符串

啟動更新的請求的唯一標識符。方法返回的值更新請求。如果更新被重試或重新啟動,那麼新的更新將繼承request_id。然而,update_id會有所不同。

停止任何活動的管道更新

端點

HTTP方法

2.0 /管道/ {pipeline_id} /停止

帖子

停止任何活動的管道更新。如果沒有運行更新,則此請求為空操作。

對於連續的管道,管道執行將被暫停。當前正在處理的表完成刷新,但下遊表不刷新。在下一次管道更新中,Delta Live Tables對沒有完成處理的表執行選定的刷新,並恢複剩餘管道DAG的處理。

對於已觸發的管道,管道執行將被停止。當前正在處理的表完成刷新,但下遊表不刷新。在下一次管道更新時,Delta Live Tables將刷新所有表。

例子

此示例停止具有ID的管道的更新a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求

卷曲——netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /停止

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

列出管道事件

端點

HTTP方法

2.0 /管道/ {pipeline_id} /事件

得到

為管道檢索事件。

例子

此示例為具有ID的管道檢索最多5個事件a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求

卷曲——netc -X GEThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /事件? max_results5

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

請求結構

字段名

類型

描述

page_token

字符串

上一個調用返回的頁令牌。該字段與該請求中除max_results外的所有字段互斥。如果在設置該字段時設置了除max_results之外的其他字段,則返回錯誤。

該字段是可選的。

max_results

INT32

單個頁麵中要返回的最大條目數。係統可能返回小於max_results事件,即使有更多可用的事件。

該字段是可選的。

缺省值為25。

最大值為100。的值將返回一個錯誤max_results大於100。

order_by

字符串

一個根據時間戳指示結果排序順序的字符串,例如,["時間戳asc”)

排序順序可以是升序或降序。默認情況下,事件按時間戳降序返回。

該字段是可選的。

過濾器

字符串

標準來選擇結果的子集,使用類似sql的語法表示。支持的過濾器有:

  • 水平= '信息'(或警告錯誤

  • 水平('信息',“警告”)

  • id =”(標識符)

  • 時間戳>“時間戳”(或> =<< =

支持複合表達式,例如:水平('錯誤',“警告”)時間戳>2021 - 07 - 22 t06:37:33.083z

該字段是可選的。

響應結構

字段名

類型

描述

事件

管道事件的數組。

匹配請求條件的事件列表。

next_page_token

字符串

如果存在,則取下一頁事件的令牌。

prev_page_token

字符串

如果存在,則使用令牌獲取前頁的事件。

獲取管道詳細信息

端點

HTTP方法

2.0 /管道/ {pipeline_id}

得到

獲取有關管道的詳細信息,包括管道設置和最近更新。

例子

這個示例獲取帶有ID的管道的詳細信息a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求

卷曲——netc -X GEThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

響應

“pipeline_id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“規範”“id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“名稱”維基百科管道(SQL)“存儲”“/用戶/用戶名/數據”“集群”“標簽”“默認”“自動定量”“min_workers”1“max_workers”5],“庫”“筆記本”“路徑”/Users/username/DLT notebook /Delta Live Tables快速入門(SQL)],“目標”“wikipedia_quickstart_data”“連續”},“狀態”“空閑”“cluster_id”“1234 - 567891 abcde123”“名稱”維基百科管道(SQL)“creator_user_name”“用戶名”“latest_updates”“update_id”“8 a0b6d02 - fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”“狀態”“完成”“creation_time”“2021 - 08 - 13 - t00:37:30.279z”},“update_id”“a72c08ba——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”“狀態”“取消”“creation_time”“2021 - 08 - 13 - t00:35:51.902z”},“update_id”“ac37d924——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”“狀態”“失敗”“creation_time”“2021 - 08 - 13 - t00:33:38.565z”],“run_as_user_name”“用戶名”

響應結構

字段名

類型

描述

pipeline_id

字符串

管道的唯一標識符。

規範

PipelineSettings

管道設置。

狀態

字符串

管道的狀態。之一閑置運行

If state =運行,則至少有一個活動更新。

cluster_id

字符串

運行管道的集群的標識符。

的名字

字符串

此管道的用戶友好的名稱。

creator_user_name

字符串

管道創建者的用戶名。

latest_updates

的數組UpdateStateInfo

管道的最新更新狀態,以最新更新優先排序。

run_as_user_name

字符串

管道作為用戶名運行。

獲取更新詳細信息

端點

HTTP方法

2.0 /管道/ {pipeline_id} /更新/ {update_id}

得到

獲取管道更新的詳細信息。

例子

此示例獲取更新的詳細信息9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003對於帶有ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求

卷曲——netc -X GEThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新/ 9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

響應

“更新”“pipeline_id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“update_id”“9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003”“配置”“id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“名稱”維基百科管道(SQL)“存儲”“/用戶/用戶名/數據”“配置”“pipelines.numStreamRetryAttempts”“5”},“集群”“標簽”“默認”“自動定量”“min_workers”1“max_workers”5],“庫”“筆記本”“路徑”/Users/username/DLT notebook /Delta Live Tables快速入門(SQL)],“目標”“wikipedia_quickstart_data”“連續”“發展”},“原因”“API_CALL”“狀態”“完成”“creation_time”1628815050279“full_refresh”真正的“request_id”“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”

響應結構

字段名

類型

描述

pipeline_id

字符串

管道的唯一標識符。

update_id

字符串

此更新的唯一標識符。

配置

PipelineSettings

管道設置。

導致

字符串

更新的觸發器。之一API_CALLRETRY_ON_FAILURESERVICE_UPGRADE

狀態

字符串

更新的狀態。之一排隊創建WAITING_FOR_RESOURCES初始化重置SETTING_UP_TABLES運行停止完成失敗的,或取消了

cluster_id

字符串

運行管道的集群的標識符。

creation_time

INT64

創建更新時的時間戳。

full_refresh

布爾

這是不是一次全麵的刷新。如果為true,則在運行更新之前重置所有管道表。

列表管道

端點

HTTP方法

2.0 /管道/

得到

列出在Delta Live Tables係統中定義的管道。

例子

此示例檢索名稱中包含的管道的詳細信息快速入門

請求

卷曲——netc -X GEThttps:// < databricks-instance > / api / 2.0 /管道?過濾器名字% 20 25快速入門% % 20% 27% 25% 27

替換:

  • < databricks-instance >和數據公司的人工作區實例名例如,dbc-a1b2345c-d6e7.cloud.www.eheci.com

此示例使用. netrc文件。

響應

“狀態”“pipeline_id”“e0f01758——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”“狀態”“空閑”“名稱”DLT快速入門(Python)“latest_updates”“update_id”“ee9ae73e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”“狀態”“完成”“creation_time”“2021 - 08 - 13 - t00:34:21.871z”],“creator_user_name”“用戶名”},“pipeline_id”“f4c82f5e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”“狀態”“空閑”“名稱”“我的DLT快速啟動示例”“creator_user_name”“用戶名”],“next_page_token”“eyJ…= =”“prev_page_token”“eyJ . . x9”

請求結構

字段名

類型

描述

page_token

字符串

上一個調用返回的頁令牌。

該字段是可選的。

max_results

INT32

單個頁麵中要返回的最大條目數。係統可能返回小於max_results事件,即使有更多可用的事件。

該字段是可選的。

缺省值為25。

最大值為100。的值將返回一個錯誤max_results大於100。

order_by

的數組字符串

指定結果順序的字符串列表,例如,["的名字asc”).支持order_by字段是id而且的名字.默認為idasc

該字段是可選的。

過濾器

字符串

根據指定的標準選擇結果的子集。

支持的過濾器有:

“筆記本= <路徑>”選擇引用所提供的筆記本路徑的管道。

的名字就像“(模式)”以選擇具有匹配名稱的管道模式.支持通配符,例如:的名字就像“%購物%”

不支持複合過濾器。

該字段是可選的。

響應結構

字段名

類型

描述

狀態

的數組PipelineStateInfo

匹配請求條件的事件列表。

next_page_token

字符串

如果存在,則取下一頁事件的令牌。

prev_page_token

字符串

如果存在,則使用令牌獲取前頁的事件。

數據結構

KeyValue

指定配置參數的鍵值對。

字段名

類型

描述

關鍵

字符串

配置屬性名稱。

價值

字符串

配置屬性值。

NotebookLibrary

一種包含管道代碼的筆記本的規範。

字段名

類型

描述

路徑

字符串

到筆記本的絕對路徑。

此字段為必填項。

PipelineLibrary

管道依賴性的規範。

字段名

類型

描述

筆記本

NotebookLibrary

到定義Delta Live Tables數據集的筆記本的路徑。該路徑必須在Databricks工作區中,例如:“筆記本”“路徑”“/ my-pipeline-notebook-path”

PipelineSettings

管道部署的設置。

字段名

類型

描述

id

字符串

此管道的唯一標識符。

該標識符是由Delta Live Tables係統創建的,在創建管道時不能提供。

的名字

字符串

此管道的用戶友好的名稱。

該字段是可選的。

缺省情況下,管道名稱必須唯一。若要使用重複的名稱,請設置allow_duplicate_names真正的在管道配置中。

存儲

字符串

DBFS目錄的路徑,用於存儲由管道創建的檢查點和表。

該字段是可選的。

如果該字段為空,則係統使用默認位置。

配置

一幅地圖字符串:字符串

要添加到將運行管道的集群的Spark配置中的鍵-值對列表。

該字段是可選的。

元素必須格式化為鍵:值對。

集群

的數組PipelinesNewCluster

用於運行管道的集群的規範數組。

該字段是可選的。

如果不指定,係統將為管道選擇默認的集群配置。

的數組PipelineLibrary

包含管道代碼和運行管道所需的任何依賴項的筆記本。

目標

字符串

用於持久化管道輸出數據的數據庫名稱。

看到從Delta Live Tables管道發布數據更多信息。

連續

布爾

這是否是一個連續的管道。

該字段是可選的。

默認值為

發展

布爾

是否在開發模式下運行管道。

該字段是可選的。

默認值為

光子

布爾

是否為該管道啟用光子加速。

該字段是可選的。

默認值為

通道

字符串

Delta Live Tables發布通道,指定用於此管道的運行時版本。支持的值為:

  • 預覽使用即將對Delta Live Tables運行時進行的更改來測試管道。

  • 當前的使用當前的Delta Live Tables運行時版本。

該字段是可選的。

默認值為當前的

字符串

Delta Live Tables產品版本運行管道:

  • 核心支持流接收工作負載。

  • 還支持流攝取工作負載,並添加對更改數據捕獲(CDC)處理的支持。

  • 先進的的所有特性版本,並增加了對需要Delta Live Tables期望來實施數據質量約束的工作負載的支持。

該字段是可選的。

默認值為先進的

PipelineStateInfo

管道的狀態、最新更新的狀態以及有關關聯資源的信息。

字段名

類型

描述

狀態

字符串

管道的狀態。之一閑置運行

pipeline_id

字符串

管道的唯一標識符。

cluster_id

字符串

運行管道的集群的唯一標識符。

的名字

字符串

管道的用戶友好的名稱。

latest_updates

的數組UpdateStateInfo

管道的最新更新狀態,以最新更新優先排序。

creator_user_name

字符串

管道創建者的用戶名。

run_as_user_name

字符串

管道作為用戶名運行。這是從管道所有者派生的隻讀值。

PipelinesNewCluster

管道集群規範。

Delta Live Tables係統設置以下屬性。這些屬性不能由用戶配置:

  • spark_version

字段名

類型

描述

標簽

字符串

也可以是集群規範的標簽默認的配置默認集群,或維護配置維護集群。

該字段是可選的。默認值為默認的

spark_conf

KeyValue

一個對象,包含一組可選的、用戶指定的Spark配置鍵-值對。您還可以通過將一串額外的JVM選項傳遞給驅動程序和執行程序spark.driver.extraJavaOptions而且spark.executor.extraJavaOptions分別。

Spark conf:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

與在Amazon Web Services上運行的集群相關的屬性。如果在創建集群時未指定,則將使用一組默認值。

node_type_id

字符串

該字段通過一個值編碼該集群中每個Spark節點可用的資源。例如,可以針對內存或計算密集型工作負載提供和優化Spark節點列出節點類型API調用。

driver_node_type_id

字符串

Spark驅動的節點類型。該字段是可選的;如果未設置,則驅動程序節點類型將設置為與node_type_id上麵的定義。

ssh_public_keys

的數組字符串

SSH公鑰內容,將添加到該集群中的每個Spark節點。可以使用相應的私鑰以用戶名登錄ubuntu在端口2200.最多可以指定10個鍵。

custom_tags

KeyValue

一個對象,包含一組用於集群資源的標記。除default_tags外,Databricks還使用這些標記標記所有集群資源。

請注意

  • 在計算優化和內存優化等遺留節點類型上不支持標記

  • Databricks最多允許45個自定義標簽。

cluster_log_conf

ClusterLogConf

Spark日誌發送到長期存儲目的地的配置。一個集群隻能指定一個目標。如果提供了此配置,則日誌將每天發送到目的地5分鍾.驅動日誌的目的地為<目標> / < cluster-ID > /司機, executor日誌的目的地為<目標> / < cluster-ID > /執行人

spark_env_vars

KeyValue

一個對象,它包含一組可選的、用戶指定的環境變量鍵值對。表單(X,Y)的鍵值對按如下方式導出(即,出口X = Y),同時啟動司機和工人。

以便指定一個額外的集合SPARK_DAEMON_JAVA_OPTS, Databricks建議將它們添加到SPARK_DAEMON_JAVA_OPTS美元如下例所示。這確保所有默認的Databricks管理的環境變量也被包括在內。

Spark環境變量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

init_scripts

的數組InitScriptInfo

用於存儲初始化腳本的配置。可以指定任意數量的目的地。這些腳本按照所提供的順序依次執行。如果cluster_log_conf時,初始化腳本日誌發送到<目標> / < cluster-ID > / init_scripts

instance_pool_id

字符串

集群所屬實例池的可選ID。看到

driver_instance_pool_id

字符串

要用於驅動程序節點的實例池的可選ID。您還必須指定instance_pool_id.看到實例池API 2.0

policy_id

字符串

一個集群政策ID。

num_workers或自動縮放

INT32自動定量

如果num_workers,表示該集群應該擁有的工作節點的數量。一個集群有一個Spark驅動程序和num_workers執行程序,總共有num_workers + 1個Spark節點。

在讀取集群的屬性時,該字段反映的是所需的工人數量,而不是工人的實際數量。例如,如果一個集群從5個工人調整到10個工人,這個字段將被更新以反映10個工人的目標大小,而在提供新節點時,執行程序中列出的工人逐漸從5個增加到10個。

如果是自動伸縮,則參數需要根據負載自動伸縮集群。

該字段是可選的。

apply_policy_default_values

布爾

是否使用政策缺少集群屬性的默認值。

UpdateStateInfo

管道更新的當前狀態。

字段名

類型

描述

update_id

字符串

此更新的唯一標識符。

狀態

字符串

更新的狀態。之一排隊創建WAITING_FOR_RESOURCES初始化重置SETTING_UP_TABLES運行停止完成失敗的,或取消了

creation_time

字符串

創建此更新時的時間戳。