創建、運行和管理三角洲住表管道
您可以創建、運行、管理和監視居住表管道使用UI或δ生活表API。您也可以運行您的管道與一個編排工具如磚工作。本文主要關注使用UI執行三角洲住表任務。使用該API,看到API指南或自動化的API磚起程拓殖的提供者和databricks_pipeline。
創建和運行您的第一個管道,看到三角洲生活表快速入門。
創建一個管道
創建一個示例管道
創建一個示例管道使用樣本數據包含在你的磚工作區,請執行以下步驟:
點擊工作流在側邊欄,然後點擊三角洲生活表選項卡。
點擊旁邊創建管道並選擇從樣本數據創建管道。的從樣本數據創建管道頁麵出現。
管道的輸入一個名稱管道的名字字段。
(可選)選擇一個集群政策定義限製的管道集群配置,選擇的政策集群政策下拉菜單。了解更多關於使用集群政策與三角洲住表管道,明白了定義限製管道集群。
選擇一個管道的首選語言,點擊SQL或Python單選按鈕。
(可選的),使你的表可用於發現和查詢,輸入數據庫名稱目標模式字段。看到發布數據集。
點擊創建。
要運行示例管道,明白了開始一個管道更新。
創建一個新的管道
創建一個新的管道,執行以下步驟:
做下列之一:
點擊工作流在側邊欄,單擊三角洲生活表選項卡,並單擊。的創建管道頁麵出現。
在側邊欄中,單擊新並選擇管道。
管道的輸入一個名稱管道的名字字段。
選擇三角洲生活表產品版本的管道產品版本下拉菜單。
產品版本允許您選擇最好的產品版本基於管道的需求。看到產品版本。
選擇觸發或連續為管道模式。看到連續和引發管道。
(可選)選擇一個集群政策定義限製的管道集群配置,選擇的政策集群政策下拉菜單。了解更多關於使用集群政策與三角洲住表管道,明白了定義限製管道集群。
輸入路徑包含你的管道查詢一個筆記本筆記本庫場,或點擊瀏覽到你的筆記本上。
(可選)管道添加額外的筆記本,點擊添加筆記本庫按鈕。
你可以在任何順序添加筆記本。三角洲生活表自動分析數據集構建管道的加工圖的依賴性。
(可選)配置為輸出數據存儲位置的管道,輸入DBFS和雲存儲路徑存儲位置字段。係統使用一個默認的位置如果你離開存儲位置空的。
(可選的),使你的表可用於發現和查詢,輸入數據庫名稱目標模式字段。看到發布數據集。
選擇的集群模式集群模式下拉菜單。
設置集群大小集群文本框。
輸入最小的工人和馬克斯工人對於一個增強自動定量或傳統的自動定量集群。
輸入的固定數量的工人固定大小集群。
(可選)來運行這個管道使用光子運行時,單擊使用光子加速複選框。
(可選)向集群添加火花配置設置,將管道運行,點擊先進的並單擊添加配置按鈕。
(可選)改變δ生活表運行時版本對於這個管道,點擊先進的並選擇一個通道通道下拉菜單。看到
通道
在三角洲住表設置。點擊創建。
選擇查看和編輯JSON管道配置,單擊JSON按鈕創建管道頁麵。
開始一個管道更新
要運行您創建的管道,一個開始管道更新。你可以開始一個更新在三角洲地區的生活表界麵或直接從管道筆記本。開始一個更新一個筆記本,點擊三角洲表>開始生活工具欄在筆記本上。開始一個更新在三角洲地區的生活表界麵:
點擊工作流在側邊欄,然後點擊三角洲生活表選項卡。的管道列表顯示。
做下列之一:
立即開始一個管道更新,點擊在行動列。係統返回一個消息確認你的管道是開始。
啟動管道之前查看更多選項,單擊管道的名字。的管道的細節頁麵顯示。
的管道的細節頁麵提供以下選項:
要開發和生產模式之間進行切換,可以使用按鈕。默認情況下,管道在開發模式下運行。看到開發和生產模式。
在管道可選配置權限,單擊權限按鈕。看到三角洲生活表訪問控製。
查看和編輯管道設置,單擊設置按鈕。看到三角洲生活表設置有關管道設置。
開始一個更新的管道管道的細節頁麵,點擊按鈕。
您可能想要再加工的數據已經攝入,例如,因為你修改查詢基於新的需求或修複錯誤計算一個新列。你可以再加工的數據已經被指示三角洲攝取生活表係統執行全部刷新UI。執行一個完整的刷新,點擊旁邊的開始按鈕,點擊全部刷新所有。
開始一個更新或一個完整的更新後,係統返回一個消息證實你的管道開始。
成功啟動更新後,三角洲生活表係統:
開始一個集群使用一個集群配置由三角洲生活表係統。你也可以指定一個自定義的集群配置。
創建任何表,並確保不存在任何現有表的模式是正確的。
最新的數據更新表。
關閉集群更新完成後。
您可以跟蹤更新的進展通過查看事件日誌的底部管道的細節頁麵。
查看日誌條目的詳細信息,單擊條目。的管道事件日誌詳細信息出現彈出。查看一個JSON文檔,其中包含日誌詳細信息,點擊JSON選項卡。
學習如何查詢事件日誌,例如,分析性能或數據質量標準,明白了事件日誌監控管道與三角洲生活表。
當管道更新完成後,你也可以開始一個更新隻刷新選擇表。
開始為選擇管道更新表
你可能想要再加工數據隻在你的選擇的表管道。例如,在開發期間,你隻修改一個表,想減少測試時間,或管道更新失敗,你想隻刷新失敗的表。
請注意
您可以使用選擇性刷新隻有觸發管道。
開始一個更新,刷新選擇的表,在管道的細節頁麵:
點擊選擇表刷新。的選擇表刷新對話框出現了。
如果您沒有看到選擇表刷新按鈕,確保管道的細節頁麵顯示最近更新,更新完成。如果DAG不顯示最近的更新,例如,因為更新失敗,選擇表刷新按鈕不顯示。
選擇表刷新,點擊每個表。所選表突出顯示和標記。刪除一個表的更新,再次單擊表。
點擊刷新選擇。
請注意
的刷新選擇按鈕在括號中顯示選擇的表數量。
再加工的數據已經被吸收為選定的表,點擊旁邊的刷新選擇按鈕,點擊全部刷新選擇。
開始一個管道更新失敗的表
如果管道更新失敗,因為在一個或多個表的錯誤管道圖,你可以開始一個更新的失敗表和任何下遊依賴性。
請注意
排除表不刷新,即使他們依賴表失敗。
更新失敗的表上管道的細節頁麵,點擊刷新失敗的表。
隻更新選擇失敗的表:
點擊旁邊的刷新失敗的表按鈕,點擊選擇表刷新。的選擇表刷新對話框出現了。
選擇表刷新,點擊每個表。所選表突出顯示和標記。刪除一個表的更新,再次單擊表。
點擊刷新選擇。
請注意
的刷新選擇按鈕在括號中顯示選擇的表數量。
再加工的數據已經被吸收為選定的表,點擊旁邊的刷新選擇按鈕,點擊全部刷新選擇。
查看管道詳細信息
管道圖
管道成功啟動後,管道圖顯示。您可以使用鼠標來調整視圖或按鈕在角落裏圖的麵板。
為數據質量標準視圖工具提示,懸停在數據質量值的數據集管道圖。
當運行一個更新,刷新隻選擇表,任何表不刷新標記的一部分被排除在外在管道圖。
安排一個管道
你可以手動觸發管道或管道運行時間表磚工作。你可以創建一個單一管道的工作任務和進度直接在三角洲地區的生活表UI或添加一個管道任務界麵的多任務的工作流程工作。
創建一個單一任務工作和安排工作在三角洲地區的生活表界麵:
點擊時間表>添加一個時間表。的時間表更新按鈕顯示現有的時間表,如果管道的數量是包含在一個或多個預定工作,例如,表(5)。
輸入一個名稱的工作作業名字段。
設置時間表來計劃。
指定時間、起始時間和時區。
配置一個或多個電子郵件地址來接收警報在管道開始,成功,或失敗。
點擊創建。
創建一個多任務工作流與數據磚工作並添加一個管道任務:
創建管道計劃後,您可以:
查看管道
點擊工作流在側邊欄,然後點擊三角洲生活表選項卡。的管道與所有管道定義的列表頁麵出現,最近的管道的狀態更新,管道標識符和管道的創造者。
您可以過濾管道在列表中:
管道的名字。
部分文本匹配一個或多個管道的名字。
隻選擇你自己的管道。
選擇所有管道有權限訪問。
單擊的名字列標題管道的名字按升序進行排序(Z) - >或降序(Z - >)。
管道名稱顯示為一個鏈接列表查看管道時,允許你右鍵單擊一個管道名稱和訪問上下文菜單選項,例如在新標簽頁打開管道細節或窗口。
編輯設置
在管道的細節頁麵,點擊設置按鈕查看和修改管道設置。您可以添加、編輯或刪除設置。例如,使管道輸出用於查詢後,您已經創建了一個管道:
單擊設置按鈕。的管道的設置頁麵出現。
在輸入數據庫名稱目標字段。
點擊保存。
查看和編輯JSON規範,單擊JSON按鈕。
看到三角洲生活表設置有關配置設置的更多信息。
發布數據集
當創建或編輯一個管道,可以配置目標
設置發布你的表定義數據磚metastore並堅持記錄δ表。
你的更新完成之後,您就可以查看數據庫和表、查詢數據,或者在下遊應用程序中使用的數據。
看到從三角洲住表發布數據管道。