創建、運行和管理Delta Live Tables管道
您可以使用UI或Delta Live Tables API創建、運行、管理和監視Delta Live Tables管道。您還可以使用諸如Databricks之類的編排工具來運行您的管道工作.本文主要討論如何使用UI執行Delta Live Tables任務。要使用該API,請參見API指南,或使用磚起程拓殖的提供者而且databricks_pipeline.
要創建和運行第一個管道,請參見Delta Live Tables快速入門.
創建一個管道
做以下任何一件事:
點擊工作流在側邊欄中,單擊三角洲生活表選項卡,並單擊.的創建管道對話框出現了。
在側邊欄中,單擊新並選擇管道.
為管道選擇Delta Live Tables產品版本產品版本下拉菜單。
產品版本選項允許您根據管道的需求選擇最佳的產品版本。看到產品版本.
中為管道輸入名稱管道的名字字段。
中包含管道查詢的筆記本的路徑筆記本庫場,或點擊瀏覽到你的筆記本。
(可選)若要向管道添加其他筆記本,請單擊添加筆記本庫按鈕。
你可以按任何順序添加筆記本。Delta Live Tables自動分析數據集依賴關係,為管道構造處理圖。
(可選)若要將Spark配置設置添加到將要運行管道的集群中,單擊添加配置按鈕。
(可選)要使表可用於發現和查詢,請在目標字段。看到發布數據集
(可選)如果需要配置管道輸出數據的存儲位置,請在目錄中輸入DBFS或雲存儲路徑存儲位置字段。如果您離開,係統將使用默認位置存儲位置空的。
選擇觸發或連續為管道模式.看到連續和觸發管道.
中選擇集群模式集群模式下拉菜單。
傳統的自動定量:使用現有的集群自動伸縮功能.
增強自動定量:使用磚增強自動定量.
固定大小:為您的流水線集群配置固定數量的工作節點。
中設置集群大小集群文本框。
輸入最小的工人而且馬克斯工人對於一個傳統的自動定量或增強自動定量集群。
輸入a的固定工人數量固定大小集群。
(可選)使用光子運行時,單擊使用光子加速複選框。
(可選)更改此管道的Delta Live Tables運行時版本通道下拉菜單。看到
通道
字段設置.(可選)若要選擇定義管道集群配置限製的集群策略,請從政策下拉菜單。要了解關於使用Delta Live Tables管道的集群策略的更多信息,請參見定義管道集群的限製.
點擊創建.
要可選地查看和編輯管道的JSON配置,請單擊JSON按鈕創建管道對話框。
啟動管道更新
要運行您創建的管道,請啟動管道更新.可以在Delta Live Tables UI中啟動更新,也可以直接從管道中啟動更新筆記本.要在筆記本中開始更新,請單擊Delta Live Tables >開始在筆記本工具欄中。在Delta Live Tables UI中啟動更新:
點擊工作流,並單擊三角洲生活表選項卡。的管道列表顯示。
做以下任何一件事:
若要立即啟動管道更新,請單擊在行動列。係統返回一條消息,確認您的管道正在啟動。
要在啟動管道之前查看更多選項,請單擊管道名稱。的管道的細節頁麵顯示。
的管道的細節頁麵提供以下選項:
要在開發和生產模式之間切換,請使用按鈕。默認情況下,管道以開發模式運行。看到開發和生產方式.
要可選地配置管道上的權限,請單擊權限按鈕。看到Delta Live表訪問控製.
要查看和編輯管道設置,請單擊設置按鈕。看到Delta Live Tables設置有關管道設置的詳細信息。
來啟動管道的更新管道的細節頁麵,點擊按鈕。
您可能希望重新處理已經攝入的數據,例如,因為您根據新的需求修改了查詢,或者為了修複計算新列的錯誤。您可以通過指示Delta Live Tables係統從UI執行完全刷新來重新處理已經攝取的數據。單擊,執行完整刷新旁邊的開始按鈕,點擊全部刷新所有.
在啟動更新或完全刷新後,係統返回一條消息,確認管道正在啟動。
成功啟動更新後,Delta Live Tables係統:
使用Delta Live Tables係統創建的集群配置啟動集群。您也可以指定一個自定義集群配置.
創建任何不存在的表,並確保模式對任何現有的表都是正確的。
用可用的最新數據更新表。
更新完成時關閉集群。
控件底部的事件日誌可以跟蹤更新的進度管道的細節頁麵。
單擊某條日誌項,可查看該日誌項的詳細信息。的管道事件日誌詳細信息出現彈出。若要查看包含日誌詳細信息的JSON文檔,請單擊JSON選項卡。
要了解如何查詢事件日誌,例如,分析性能或數據質量指標,請參見使用Delta Live Tables事件日誌監視管道.
當管道更新完成時,還可以啟動更新,隻刷新選定的表。
為選定的表啟動管道更新
您可能希望僅對管道中選定的表重新處理數據。例如,在開發期間,您隻更改了一個表,並希望減少測試時間,或者管道更新失敗,而您隻想刷新失敗的表.
啟動僅刷新選定表的更新管道的細節頁麵:
點擊選擇要刷新的表.的選擇要刷新的表對話框出現了。
如果你沒有看到選擇要刷新的表按鈕,確保管道的細節頁顯示最近的更新,更新完成。如果在最近的更新中沒有顯示DAG,例如,由於更新失敗,則選擇要刷新的表按鈕未顯示。
要選擇要刷新的表,請單擊每個表。選中的表被高亮顯示和標記。若要從更新中刪除表,請再次單擊該表。
點擊刷新選擇.
請注意
的刷新選擇按鈕在括號中顯示所選表的數量。
若要重新處理已為所選表攝取的數據,請單擊旁邊的刷新選擇按鈕,點擊全部刷新選擇.
為失敗的表啟動管道更新
如果由於管道圖中的一個或多個表的錯誤而導致管道更新失敗,則隻能開始更新失敗的表和任何下遊依賴項。
請注意
被排除的表不會被刷新,即使它們依賴於失敗的表。
更新失敗的表管道的細節頁麵,點擊刷新失敗的表.
要隻更新選定的失敗表:
點擊旁邊的刷新失敗的表按鈕,點擊選擇要刷新的表.的選擇要刷新的表對話框出現了。
要選擇要刷新的表,請單擊每個表。選中的表被高亮顯示和標記。若要從更新中刪除表,請再次單擊該表。
點擊刷新選擇.
請注意
的刷新選擇按鈕在括號中顯示所選表的數量。
若要重新處理已為所選表攝取的數據,請單擊旁邊的刷新選擇按鈕,點擊全部刷新選擇.
查看管道詳細信息
管道圖
在管道成功啟動之後,將顯示管道圖。您可以使用鼠標來調整視圖或圖形麵板角落的按鈕。
若要查看數據質量度量的工具提示,請將鼠標懸停在管道圖中數據集的數據質量值上。
當運行隻刷新選定表的更新時,不屬於刷新的任何表都會被標記被排除在外在管道圖中。
安排一個管道
您可以手動啟動一個已觸發的管道,也可以使用Databricks按計劃運行該管道工作.您可以直接在Delta Live Tables UI中使用單個管道任務創建和調度作業,也可以在作業UI中向多任務工作流添加管道任務。
在Delta Live Tables UI中為作業創建一個單任務作業和調度:
點擊時間計劃>添加時間計劃.的時間表按鈕將被更新,以顯示現有計劃的數量,如果管道包含在一個或多個計劃作業中,例如,表(5).
中輸入作業的名稱作業名字段。
設置時間表來計劃.
指定時間段、開始時間和時區。
配置一個或多個電子郵件地址,以便在管道啟動、成功或失敗時接收警報。
點擊創建.
使用Databricks作業創建多任務工作流並添加管道任務:
在創建管道計劃之後,您可以:
查看管道
點擊工作流,並單擊三角洲生活表選項卡。的管道頁將顯示所有已定義的管道的列表、最近的管道更新的狀態、管道標識符和管道創建者。
你可以通過以下方法過濾列表中的管道:
管道的名字。
一個或多個管道名稱上的部分文本匹配。
隻選擇您擁有的管道。
選擇您有權限訪問的所有管道。
單擊的名字列標頭按名稱升序(A -> Z)或降序(Z -> A)對管道進行排序。
當您查看管道列表時,管道名稱呈現為一個鏈接,允許您右鍵單擊管道名稱並訪問上下文菜單選項,例如在新選項卡或窗口中打開管道詳細信息。
編輯設置
在管道的細節頁麵,點擊設置按鈕,查看和修改管道設置。您可以添加、編輯或刪除設置。例如,在創建管道後,要使管道輸出可用於查詢:
單擊設置按鈕。的編輯管道設置對話框出現了。
中輸入數據庫名稱目標字段。
點擊保存.
要查看和編輯JSON規範,請單擊JSON按鈕。
看到Delta Live Tables設置有關配置設置的詳細信息。