創建、運行和管理Delta Live Tables管道

您可以使用UI或Delta Live Tables API創建、運行、管理和監視Delta Live Tables管道。您還可以使用諸如Databricks之類的編排工具來運行您的管道工作.本文主要討論如何使用UI執行Delta Live Tables任務。要使用該API,請參見API指南,或使用磚起程拓殖的提供者而且databricks_pipeline

要創建和運行第一個管道,請參見Delta Live Tables快速入門

創建一個管道

  1. 做以下任何一件事:

    • 點擊工作圖標工作流在側邊欄中,單擊三角洲生活表選項卡,並單擊Delta活動表創建圖標.的創建管道對話框出現了。

    • 在側邊欄中,單擊新圖標並選擇管道

  2. 為管道選擇Delta Live Tables產品版本產品版本下拉菜單。

    產品版本選項允許您根據管道的需求選擇最佳的產品版本。看到產品版本

  3. 中為管道輸入名稱管道的名字字段。

  4. 中包含管道查詢的筆記本的路徑筆記本庫場,或點擊文件選擇器圖標瀏覽到你的筆記本。

  5. (可選)若要向管道添加其他筆記本,請單擊添加筆記本庫按鈕。

    你可以按任何順序添加筆記本。Delta Live Tables自動分析數據集依賴關係,為管道構造處理圖。

  6. (可選)若要將Spark配置設置添加到將要運行管道的集群中,單擊添加配置按鈕。

  7. (可選)要使表可用於發現和查詢,請在目標字段。看到發布數據集

  8. (可選)如果需要配置管道輸出數據的存儲位置,請在目錄中輸入DBFS或雲存儲路徑存儲位置字段。如果您離開,係統將使用默認位置存儲位置空的。

  9. 選擇觸發連續管道模式.看到連續和觸發管道

  10. 中選擇集群模式集群模式下拉菜單。

  11. 中設置集群大小集群文本框。

    • 輸入最小的工人而且馬克斯工人對於一個傳統的自動定量增強自動定量集群。

    • 輸入a的固定工人數量固定大小集群。

  12. (可選)使用光子運行時,單擊使用光子加速複選框。

  13. (可選)更改此管道的Delta Live Tables運行時版本通道下拉菜單。看到通道字段設置

  14. (可選)若要選擇定義管道集群配置限製的集群策略,請從政策下拉菜單。要了解關於使用Delta Live Tables管道的集群策略的更多信息,請參見定義管道集群的限製

  15. 點擊創建

要可選地查看和編輯管道的JSON配置,請單擊JSON按鈕創建管道對話框。

啟動管道更新

要運行您創建的管道,請啟動管道更新.可以在Delta Live Tables UI中啟動更新,也可以直接從管道中啟動更新筆記本.要在筆記本中開始更新,請單擊Delta Live Tables >開始在筆記本工具欄中。在Delta Live Tables UI中啟動更新:

  1. 點擊工作圖標工作流,並單擊三角洲生活表選項卡。的管道列表顯示。

  2. 做以下任何一件事:

    • 若要立即啟動管道更新,請單擊右箭頭圖標行動列。係統返回一條消息,確認您的管道正在啟動。

    • 要在啟動管道之前查看更多選項,請單擊管道名稱。的管道的細節頁麵顯示。

管道的細節頁麵提供以下選項:

  • 要在開發和生產模式之間切換,請使用Delta活動表環境切換圖標按鈕。默認情況下,管道以開發模式運行。看到開發和生產方式

  • 要可選地配置管道上的權限,請單擊權限按鈕。看到Delta Live表訪問控製

  • 要查看和編輯管道設置,請單擊設置按鈕。看到Delta Live Tables設置有關管道設置的詳細信息。

來啟動管道的更新管道的細節頁麵,點擊Delta活動表開始圖標按鈕。

您可能希望重新處理已經攝入的數據,例如,因為您根據新的需求修改了查詢,或者為了修複計算新列的錯誤。您可以通過指示Delta Live Tables係統從UI執行完全刷新來重新處理已經攝取的數據。單擊,執行完整刷新藍色向下插入符號旁邊的開始按鈕,點擊全部刷新所有

在啟動更新或完全刷新後,係統返回一條消息,確認管道正在啟動。

成功啟動更新後,Delta Live Tables係統:

  1. 使用Delta Live Tables係統創建的集群配置啟動集群。您也可以指定一個自定義集群配置

  2. 創建任何不存在的表,並確保模式對任何現有的表都是正確的。

  3. 用可用的最新數據更新表。

  4. 更新完成時關閉集群。

控件底部的事件日誌可以跟蹤更新的進度管道的細節頁麵。

查看管道事件日誌

單擊某條日誌項,可查看該日誌項的詳細信息。的管道事件日誌詳細信息出現彈出。若要查看包含日誌詳細信息的JSON文檔,請單擊JSON選項卡。

要了解如何查詢事件日誌,例如,分析性能或數據質量指標,請參見使用Delta Live Tables事件日誌監視管道

當管道更新完成時,還可以啟動更新,隻刷新選定的表。

為選定的表啟動管道更新

您可能希望僅對管道中選定的表重新處理數據。例如,在開發期間,您隻更改了一個表,並希望減少測試時間,或者管道更新失敗,而您隻想刷新失敗的表

啟動僅刷新選定表的更新管道的細節頁麵:

  1. 點擊選擇要刷新的表.的選擇要刷新的表對話框出現了。

    如果你沒有看到選擇要刷新的表按鈕,確保管道的細節頁顯示最近的更新,更新完成。如果在最近的更新中沒有顯示DAG,例如,由於更新失敗,則選擇要刷新的表按鈕未顯示。

  2. 要選擇要刷新的表,請單擊每個表。選中的表被高亮顯示和標記。若要從更新中刪除表,請再次單擊該表。

  3. 點擊刷新選擇

    請注意

    刷新選擇按鈕在括號中顯示所選表的數量。

若要重新處理已為所選表攝取的數據,請單擊藍色向下插入符號旁邊的刷新選擇按鈕,點擊全部刷新選擇

為失敗的表啟動管道更新

如果由於管道圖中的一個或多個表的錯誤而導致管道更新失敗,則隻能開始更新失敗的表和任何下遊依賴項。

請注意

被排除的表不會被刷新,即使它們依賴於失敗的表。

更新失敗的表管道的細節頁麵,點擊刷新失敗的表

要隻更新選定的失敗表:

  1. 點擊紐扣旁邊的刷新失敗的表按鈕,點擊選擇要刷新的表.的選擇要刷新的表對話框出現了。

  2. 要選擇要刷新的表,請單擊每個表。選中的表被高亮顯示和標記。若要從更新中刪除表,請再次單擊該表。

  3. 點擊刷新選擇

    請注意

    刷新選擇按鈕在括號中顯示所選表的數量。

若要重新處理已為所選表攝取的數據,請單擊藍色向下插入符號旁邊的刷新選擇按鈕,點擊全部刷新選擇

查看管道詳細信息

管道圖

在管道成功啟動之後,將顯示管道圖。您可以使用鼠標來調整視圖或Delta活動表圖形按鈕圖標圖形麵板角落的按鈕。

視圖管線圖

若要查看數據質量度量的工具提示,請將鼠標懸停在管道圖中數據集的數據質量值上。

當運行隻刷新選定表的更新時,不屬於刷新的任何表都會被標記被排除在外在管道圖中。

管道的細節

管道的細節麵板顯示有關管道和管道當前或最近更新的信息,包括管道和更新標識符、更新狀態、更新類型和更新運行時。

管道的細節麵板還顯示有關管道計算集群的信息,包括計算成本、產品版本、Databricks Runtime版本以及為管道配置的通道。若要在新選項卡中打開集群的Spark UI,請單擊火花UI按鈕。要在新選項卡中打開集群日誌,請單擊日誌按鈕。要在新選項卡中打開集群指標,請單擊指標按鈕。

運行值顯示運行管道更新的用戶。的運行用戶是管道所有者,管道更新以該用戶的權限運行。改變運行作為用戶,請點擊權限並更改管道所有者。

數據集的細節

中單擊數據集中的數據集,可查看數據集的詳細信息,包括數據集模式和數據質量指標視圖。將顯示數據集詳細信息。

查看數據詳細信息

要在新窗口中打開管道筆記本,請單擊路徑價值。

來關閉數據集詳細信息視圖並返回管道的細節,點擊Delta活動表關閉對話框按鈕

停止管道更新

單擊,停止管道更新Delta活動表停止圖標

安排一個管道

您可以手動啟動一個已觸發的管道,也可以使用Databricks按計劃運行該管道工作.您可以直接在Delta Live Tables UI中使用單個管道任務創建和調度作業,也可以在作業UI中向多任務工作流添加管道任務。

在Delta Live Tables UI中為作業創建一個單任務作業和調度:

  1. 點擊時間計劃>添加時間計劃.的時間表按鈕將被更新,以顯示現有計劃的數量,如果管道包含在一個或多個計劃作業中,例如,表(5)

  2. 中輸入作業的名稱作業名字段。

  3. 設置時間表計劃

  4. 指定時間段、開始時間和時區。

  5. 配置一個或多個電子郵件地址,以便在管道啟動、成功或失敗時接收警報。

  6. 點擊創建

使用Databricks作業創建多任務工作流並添加管道任務:

  1. 創建一個工作,並將您的管道添加到作業工作流使用管道的任務。

  2. 創建一個計劃在工作UI中。

在創建管道計劃之後,您可以:

  • 在Delta Live Tables UI中查看計劃的摘要,包括計劃名稱、是否暫停、最後一次運行時間和最後一次運行的狀態。若要查看時間表彙總信息,請單擊時間表按鈕。

  • 編輯工作或者是管道的任務

  • 編輯時間表暫停和恢複時間表。如果您選擇了該計劃,還將暫停該計劃手冊當創建計劃時。

  • 運行作業手動和視圖細節在工作運行。

查看管道

點擊工作圖標工作流,並單擊三角洲生活表選項卡。的管道頁將顯示所有已定義的管道的列表、最近的管道更新的狀態、管道標識符和管道創建者。

你可以通過以下方法過濾列表中的管道:

  • 管道的名字。

  • 一個或多個管道名稱上的部分文本匹配。

  • 隻選擇您擁有的管道。

  • 選擇您有權限訪問的所有管道。

單擊的名字列標頭按名稱升序(A -> Z)或降序(Z -> A)對管道進行排序。

當您查看管道列表時,管道名稱呈現為一個鏈接,允許您右鍵單擊管道名稱並訪問上下文菜單選項,例如在新選項卡或窗口中打開管道詳細信息。

編輯設置

管道的細節頁麵,點擊設置按鈕,查看和修改管道設置。您可以添加、編輯或刪除設置。例如,在創建管道後,要使管道輸出可用於查詢:

  1. 單擊設置按鈕。的編輯管道設置對話框出現了。

  2. 中輸入數據庫名稱目標字段。

  3. 點擊保存

要查看和編輯JSON規範,請單擊JSON按鈕。

配置JSON格式的數據庫名稱

看到Delta Live Tables設置有關配置設置的詳細信息。

視圖更新曆史

的曆史和狀態管道的更新,單擊更新曆史記錄下拉菜單。

更新曆史下拉

若要查看更新的圖表、詳細信息和事件,請在下拉菜單中選擇更新。單擊,返回最新的更新顯示最新更新

發布數據集

在創建或編輯管道時,可以配置目標設置將表定義發布到Databricksmetastore並將記錄持久化到δ表。

更新完成後,就可以了查看數據庫和表、查詢數據或在下遊應用中使用該數據。

看到從Delta Live Tables管道發布數據

刪除一個管道

方法中刪除管道管道列表或管道的細節頁麵:

  • 管道列表中,點擊垃圾行動列。

  • 管道的細節頁,單擊刪除按鈕。

刪除管道將從Delta Live Tables係統中刪除管道定義,並且無法恢複。