在三角洲上運行一個更新生活表管道

本文解釋了一個三角洲生活表管道更新以及如何運行一個。

在您創建一個管道和準備運行它,你開始一個更新。管道更新如下:

  • 開始與正確的集群配置。

  • 發現所有的表和視圖定義,並檢查等任何分析錯誤無效的列名,失蹤的依賴,和語法錯誤。

  • 創建或更新表和視圖與可用的最新數據。

開始一個管道更新

磚開始管道更新提供了一些選項,包括以下:

三角洲的生活方式表更新表和視圖

表和視圖的更新,這些表是如何更新視圖,取決於更新類型:

  • 刷新所有:所有生活表更新,以反映當前狀態的輸入數據來源。對於所有流表,新行添加到表中。

  • 全部刷新所有:所有生活表更新,以反映當前狀態的輸入數據來源。流表,三角洲生活表試圖清除所有數據從每個表,然後加載所有數據流源。

  • 刷新選擇的行為:刷新選擇是一樣刷新所有,但允許你隻刷新選擇表。選擇生活表更新,以反映當前狀態的輸入數據來源。對於選定的流表,新行添加到表中。

  • 全部刷新選擇的行為:完整的刷新選擇是一樣完整的刷新所有,但允許您執行全麵刷新隻選擇表。選擇生活表更新,以反映當前狀態的輸入數據來源。為選定的流表,δ生活表試圖清除所有數據從每個表,然後加載所有數據流源。

現有的生活表,更新相同的行為作為一個SQL刷新物化視圖。為新生活表,和SQL一樣的行為創建操作。

開始為選擇管道更新表

你可能想要再加工數據隻在你的選擇的表管道。例如,在開發期間,你隻修改一個表,想減少測試時間,或管道更新失敗,你想隻刷新失敗的表

請注意

您可以使用選擇性刷新隻有引發管道。

開始一個更新,刷新選擇的表,在管道的細節頁麵:

  1. 點擊選擇表刷新。的選擇表刷新對話框出現了。

    如果您沒有看到選擇表刷新按鈕,確保管道的細節頁麵顯示最新更新,更新完成。如果DAG不顯示最新的更新,例如,因為更新失敗,選擇表刷新按鈕不顯示。

  2. 選擇表刷新,點擊每個表。所選表突出顯示和標記。刪除一個表的更新,再次單擊表。

  3. 點擊刷新選擇

    請注意

    刷新選擇按鈕在括號中顯示選擇的表數量。

再加工的數據已經被吸收為選定的表,點擊藍色向下插入符號旁邊的刷新選擇按鈕,點擊全部刷新選擇

開始一個管道更新失敗的表

如果管道更新失敗,因為在一個或多個表的錯誤管道圖,你可以開始一個更新的失敗表和任何下遊依賴性。

請注意

排除表不刷新,即使他們依賴表失敗。

更新失敗的表上管道的細節頁麵,點擊刷新失敗的表

隻更新選擇失敗的表:

  1. 點擊紐扣旁邊的刷新失敗的表按鈕,點擊選擇表刷新。的選擇表刷新對話框出現了。

  2. 選擇表刷新,點擊每個表。所選表突出顯示和標記。刪除一個表的更新,再次單擊表。

  3. 點擊刷新選擇

    請注意

    刷新選擇按鈕在括號中顯示選擇的表數量。

再加工的數據已經被吸收為選定的表,點擊藍色向下插入符號旁邊的刷新選擇按鈕,點擊全部刷新選擇

連續與管道執行觸發

如果管道使用觸發成功刷新後的執行模式,係統停止處理管道中的所有表或選擇的表一次,確保每個表的一部分更新更新更新開始時根據可獲得的數據。

如果管道使用連續執行,三角洲生活表流程新數據到達數據源保持整個管道表新鮮。

執行模式是獨立於類型的表被計算。物化視圖和流表可以更新執行模式。在連續的執行模式,避免不必要的處理管道自動監控依賴三角洲表和執行更新隻有當這些依賴表的內容已經改變了。

請注意

三角洲生活表運行時無法檢測non-Delta數據源的變化。表仍然是定期更新,但更高的違約觸發間隔,防止過度重新計算減速任何增量處理發生在集群上。

表比較數據管道執行模式

這些執行下表強調差異模式:

觸發

連續

更新什麼時候停止?

自動完成後。

持續運行,直到手動停止。

處理數據是什麼?

數據更新時開始。

當它到達配置數據源的數據。

這個最好的數據新鮮度需求是什麼?

數據更新運行每10分鍾,每小時或每天。

數據更新所需的每10秒到幾分鍾。

引起管道可以減少資源消耗和費用自集群隻運行足夠長的時間來執行管道。然而,新數據不會被處理,直到管道被觸發。連續管道需要一個總在集群中,這是更昂貴但減少處理延遲。

您可以配置的執行模式管道模式在設置選項。

如何選擇管道邊界

δ生活表管道可以更新一個表過程,許多具有依賴關係的表,很多表沒有關係,或者多個indpendent流表的依賴關係。本節包含的考慮,以幫助確定如何打破你的管道。

大三角洲生活表管道有很多好處。這些包括以下幾點:

  • 更有效地使用集群資源。

  • 減少管道的數量在你的工作區。

  • 減少工作流程編製的複雜性。

一些常見的建議應該如何分割處理管道包括以下:

  • 在團隊邊界分割功能。例如,您的團隊可能維持管道將數據而數據分析師保持管道,轉換後的數據進行分析。

  • 在特定於應用程序的功能邊界分割降低耦合和促進共同功能的重用。

開發和生產模式

你可以通過切換優化管道執行開發和生產模式。使用三角洲生活表環境切換圖標在管道UI按鈕這兩個模式之間進行切換。默認情況下,管道在開發模式下運行。

當您運行您的管道開發模式下,三角洲生活表係統如下:

  • 重用一個集群,以避免重啟的開銷。默認情況下,集群發展模式被啟用時跑了兩個小時。你可以改變這一切pipelines.clusterShutdown.delay設置在配置您的計算設置

  • 禁用管道重試,這樣你就可以立即檢測並修複錯誤。

在生產模式下,三角洲生活表係統如下:

  • 為特定的可恢複錯誤重新啟動集群,包括內存泄漏和陳舊的憑證。

  • 重試時執行特定的錯誤,例如,一個失敗的開始一個集群。

請注意

開發和生產模式之間輕鬆切換隻控製集群和管道執行行為。存儲位置和目標模式出版的目錄表必須作為管道的設置和配置模式之間切換時不受影響。

安排一個管道

你可以手動觸發管道或管道運行時間表磚工作。你可以創建一個單一管道的工作任務和進度直接在三角洲地區的生活表UI或添加一個管道任務界麵的多任務的工作流程工作。

創建一個單一任務工作和安排工作在三角洲地區的生活表界麵:

  1. 點擊時間表>添加一個時間表。的時間表更新按鈕顯示現有的時間表,如果管道的數量是包含在一個或多個預定工作,例如,表(5)

  2. 輸入一個名稱的工作作業名字段。

  3. 設置時間表計劃

  4. 指定時間、起始時間和時區。

  5. 配置一個或多個電子郵件地址來接收警報在管道開始,成功,或失敗。

  6. 點擊創建