創建、運行和管理三角洲住表管道

您可以創建、運行、管理和監視居住表管道使用UI或δ生活表API。您也可以運行您的管道與一個編排工具如磚工作。本文主要關注使用UI執行三角洲住表任務。使用該API,看到API指南或自動化的API磚起程拓殖的提供者databricks_pipeline

創建和運行您的第一個管道,看到三角洲生活表快速入門

創建一個管道

創建一個示例管道

創建一個示例管道使用樣本數據包含在你的磚工作區,請執行以下步驟:

  1. 點擊工作圖標工作流在側邊欄,然後點擊三角洲生活表選項卡。

  2. 點擊藍色向下插入符號旁邊創建管道並選擇從樣本數據創建管道。的從樣本數據創建管道頁麵出現。

  3. 管道的輸入一個名稱管道的名字字段。

  4. (可選)選擇一個集群政策定義限製的管道集群配置,選擇的政策集群政策下拉菜單。了解更多關於使用集群政策與三角洲住表管道,明白了定義限製管道集群

  5. 選擇一個管道的首選語言,點擊SQLPython單選按鈕。

  6. (可選的),使你的表可用於發現和查詢,輸入數據庫名稱目標模式字段。看到發布數據集

  7. 點擊創建

要運行示例管道,明白了開始一個管道更新

創建一個新的管道

創建一個新的管道,執行以下步驟:

  1. 做下列之一:

    • 點擊工作圖標工作流在側邊欄,單擊三角洲生活表選項卡,並單擊三角洲生活表創建圖標。的創建管道頁麵出現。

    • 在側邊欄中,單擊新圖標並選擇管道

  2. 管道的輸入一個名稱管道的名字字段。

  3. 選擇三角洲生活表產品版本的管道產品版本下拉菜單。

    產品版本允許您選擇最好的產品版本基於管道的需求。看到產品版本

  4. 選擇觸發連續管道模式。看到連續和引發管道

  5. (可選)選擇一個集群政策定義限製的管道集群配置,選擇的政策集群政策下拉菜單。了解更多關於使用集群政策與三角洲住表管道,明白了定義限製管道集群

  6. 輸入路徑包含你的管道查詢一個筆記本筆記本庫場,或點擊文件選擇器圖標瀏覽到你的筆記本上。

  7. (可選)管道添加額外的筆記本,點擊添加筆記本庫按鈕。

    你可以在任何順序添加筆記本。三角洲生活表自動分析數據集構建管道的加工圖的依賴性。

  8. (可選)配置為輸出數據存儲位置的管道,輸入DBFS和雲存儲路徑存儲位置字段。係統使用一個默認的位置如果你離開存儲位置空的。

  9. (可選的),使你的表可用於發現和查詢,輸入數據庫名稱目標模式字段。看到發布數據集

  10. 選擇的集群模式集群模式下拉菜單。

  11. 設置集群大小集群文本框。

    • 輸入最小的工人馬克斯工人對於一個增強自動定量傳統的自動定量集群。

    • 輸入的固定數量的工人固定大小集群。

  12. (可選)來運行這個管道使用光子運行時,單擊使用光子加速複選框。

  13. (可選)向集群添加火花配置設置,將管道運行,點擊先進的並單擊添加配置按鈕。

  14. (可選)改變δ生活表運行時版本對於這個管道,點擊先進的並選擇一個通道通道下拉菜單。看到通道在三角洲住表設置

  15. 點擊創建

選擇查看和編輯JSON管道配置,單擊JSON按鈕創建管道頁麵。

開始一個管道更新

要運行您創建的管道,一個開始管道更新。你可以開始一個更新在三角洲地區的生活表界麵或直接從管道筆記本。開始一個更新一個筆記本,點擊三角洲表>開始生活工具欄在筆記本上。開始一個更新在三角洲地區的生活表界麵:

  1. 點擊工作圖標工作流在側邊欄,然後點擊三角洲生活表選項卡。的管道列表顯示。

  2. 做下列之一:

    • 立即開始一個管道更新,點擊右箭頭圖標行動列。係統返回一個消息確認你的管道是開始。

    • 啟動管道之前查看更多選項,單擊管道的名字。的管道的細節頁麵顯示。

管道的細節頁麵提供以下選項:

開始一個更新的管道管道的細節頁麵,點擊三角洲生活表開始圖標按鈕。

您可能想要再加工的數據已經攝入,例如,因為你修改查詢基於新的需求或修複錯誤計算一個新列。你可以再加工的數據已經被指示三角洲攝取生活表係統執行全部刷新UI。執行一個完整的刷新,點擊藍色向下插入符號旁邊的開始按鈕,點擊全部刷新所有

開始一個更新或一個完整的更新後,係統返回一個消息證實你的管道開始。

成功啟動更新後,三角洲生活表係統:

  1. 開始一個集群使用一個集群配置由三角洲生活表係統。你也可以指定一個自定義的集群配置

  2. 創建任何表,並確保不存在任何現有表的模式是正確的。

  3. 最新的數據更新表。

  4. 關閉集群更新完成後。

您可以跟蹤更新的進展通過查看事件日誌的底部管道的細節頁麵。

查看管道事件日誌

查看日誌條目的詳細信息,單擊條目。的管道事件日誌詳細信息出現彈出。查看一個JSON文檔,其中包含日誌詳細信息,點擊JSON選項卡。

學習如何查詢事件日誌,例如,分析性能或數據質量標準,明白了事件日誌監控管道與三角洲生活表

當管道更新完成後,你也可以開始一個更新隻刷新選擇表。

開始為選擇管道更新表

你可能想要再加工數據隻在你的選擇的表管道。例如,在開發期間,你隻修改一個表,想減少測試時間,或管道更新失敗,你想隻刷新失敗的表

請注意

您可以使用選擇性刷新隻有觸發管道。

開始一個更新,刷新選擇的表,在管道的細節頁麵:

  1. 點擊選擇表刷新。的選擇表刷新對話框出現了。

    如果您沒有看到選擇表刷新按鈕,確保管道的細節頁麵顯示最近更新,更新完成。如果DAG不顯示最近的更新,例如,因為更新失敗,選擇表刷新按鈕不顯示。

  2. 選擇表刷新,點擊每個表。所選表突出顯示和標記。刪除一個表的更新,再次單擊表。

  3. 點擊刷新選擇

    請注意

    刷新選擇按鈕在括號中顯示選擇的表數量。

再加工的數據已經被吸收為選定的表,點擊藍色向下插入符號旁邊的刷新選擇按鈕,點擊全部刷新選擇

開始一個管道更新失敗的表

如果管道更新失敗,因為在一個或多個表的錯誤管道圖,你可以開始一個更新的失敗表和任何下遊依賴性。

請注意

排除表不刷新,即使他們依賴表失敗。

更新失敗的表上管道的細節頁麵,點擊刷新失敗的表

隻更新選擇失敗的表:

  1. 點擊紐扣旁邊的刷新失敗的表按鈕,點擊選擇表刷新。的選擇表刷新對話框出現了。

  2. 選擇表刷新,點擊每個表。所選表突出顯示和標記。刪除一個表的更新,再次單擊表。

  3. 點擊刷新選擇

    請注意

    刷新選擇按鈕在括號中顯示選擇的表數量。

再加工的數據已經被吸收為選定的表,點擊藍色向下插入符號旁邊的刷新選擇按鈕,點擊全部刷新選擇

查看管道詳細信息

管道圖

管道成功啟動後,管道圖顯示。您可以使用鼠標來調整視圖或三角洲生活表圖按鈕圖標按鈕在角落裏圖的麵板。

視圖管線圖

為數據質量標準視圖工具提示,懸停在數據質量值的數據集管道圖。

當運行一個更新,刷新隻選擇表,任何表不刷新標記的一部分被排除在外在管道圖。

管道的細節

管道的細節麵板顯示的信息管道和管道的當前或最近的更新,包括管道和更新標識,更新狀態,更新類型和運行時更新。

管道的細節麵板也顯示管道計算集群的信息,包括計算成本,產品版本、磚的運行時版本,和通道配置的管道。打開火花UI的集群在一個新的選項卡上,單擊火花UI按鈕。打開集群日誌在新選項卡中,單擊日誌按鈕。打開集群指標在新選項卡中,單擊指標按鈕。

運行值顯示管道更新運行的用戶。的運行用戶是管道所有者和管道更新運行與該用戶的權限。改變運行作為用戶,請點擊權限和改變管道所有者。

數據集的細節

查看數據集的詳細信息,包括數據模式和數據質量標準,點擊的數據集視圖。數據集顯示細節。

查看數據詳細信息

打開管道筆記本在一個新的窗口中,單擊路徑價值。

關閉並返回到數據集的細節視圖管道的細節,點擊三角洲生活表關閉對話框按鈕

阻止管道更新

停止一個管道的更新,點擊三角洲生活表停止圖標

安排一個管道

你可以手動觸發管道或管道運行時間表磚工作。你可以創建一個單一管道的工作任務和進度直接在三角洲地區的生活表UI或添加一個管道任務界麵的多任務的工作流程工作。

創建一個單一任務工作和安排工作在三角洲地區的生活表界麵:

  1. 點擊時間表>添加一個時間表。的時間表更新按鈕顯示現有的時間表,如果管道的數量是包含在一個或多個預定工作,例如,表(5)

  2. 輸入一個名稱的工作作業名字段。

  3. 設置時間表計劃

  4. 指定時間、起始時間和時區。

  5. 配置一個或多個電子郵件地址來接收警報在管道開始,成功,或失敗。

  6. 點擊創建

創建一個多任務工作流與數據磚工作並添加一個管道任務:

  1. 創建一個工作在工作界麵和工作流使用管道添加到工作管道的任務。

  2. 創建一個計劃這份工作的工作界麵。

創建管道計劃後,您可以:

  • 查看三角洲的日程生活的總結表界麵,包括日程名稱、是否停頓了一下,最後運行時間,最後運行的狀態。查看進度彙總,單擊時間表按鈕。

  • 編輯工作或者是管道的任務

  • 編輯時間表暫停和恢複時間表。如果你選定的計劃也將被暫停手冊當創建時間表。

  • 運行作業手動和視圖細節在工作運行。

查看管道

點擊工作圖標工作流在側邊欄,然後點擊三角洲生活表選項卡。的管道與所有管道定義的列表頁麵出現,最近的管道的狀態更新,管道標識符和管道的創造者。

您可以過濾管道在列表中:

  • 管道的名字。

  • 部分文本匹配一個或多個管道的名字。

  • 隻選擇你自己的管道。

  • 選擇所有管道有權限訪問。

單擊的名字列標題管道的名字按升序進行排序(Z) - >或降序(Z - >)。

管道名稱顯示為一個鏈接列表查看管道時,允許你右鍵單擊一個管道名稱和訪問上下文菜單選項,例如在新標簽頁打開管道細節或窗口。

編輯設置

管道的細節頁麵,點擊設置按鈕查看和修改管道設置。您可以添加、編輯或刪除設置。例如,使管道輸出用於查詢後,您已經創建了一個管道:

  1. 單擊設置按鈕。的管道的設置頁麵出現。

  2. 在輸入數據庫名稱目標字段。

  3. 點擊保存

查看和編輯JSON規範,單擊JSON按鈕。

在JSON配置數據庫名稱

看到三角洲生活表設置有關配置設置的更多信息。

視圖更新曆史

查看的曆史和現狀管道的更新,單擊更新曆史記錄下拉菜單。

更新曆史下拉

查看圖,細節,和事件更新,選擇下拉菜單的更新。返回最新的更新,點擊顯示最新更新

發布數據集

當創建或編輯一個管道,可以配置目標設置發布你的表定義數據磚metastore並堅持記錄δ表。

你的更新完成之後,您就可以查看數據庫和表、查詢數據,或者在下遊應用程序中使用的數據。

看到從三角洲住表發布數據管道

刪除一個管道

你可以刪除一個管道管道列表或管道的細節頁麵:

  • 管道列表中,點擊垃圾行動列。

  • 管道的細節為你的管道頁,單擊刪除按鈕。

刪除一個管道從三角洲住表刪除管道定義係統,無法回複。