在三角洲上運行一個更新生活表管道
預覽
這個特性是在公共預覽。
本文解釋了一個三角洲生活表管道更新以及如何運行一個。
在您創建一個管道和準備運行它,你開始一個更新。管道更新如下:
開始與正確的集群配置。
發現所有的表和視圖定義,並檢查等任何分析錯誤無效的列名,失蹤的依賴,和語法錯誤。
創建或更新表和視圖與可用的最新數據。
開始一個管道更新
磚開始管道更新提供了一些選項,包括以下:
在三角洲地區的生活表界麵,你有以下選項:
單擊管道的細節頁麵上的按鈕。
從管道的列表中,單擊在行動列。
開始一個更新一個筆記本,點擊三角洲表>開始生活工具欄在筆記本上。看到打開或運行一個三角洲生活表管道從一個筆記本。
您可以觸發管道以編程方式使用API或CLI。看到三角洲生活表API指南。
你可以安排使用三角洲的管道的工作生活表界麵UI或工作。看到安排一個管道。
三角洲的生活方式表更新表和視圖
表和視圖的更新,這些表是如何更新視圖,取決於更新類型:
刷新所有:所有生活表更新,以反映當前狀態的輸入數據來源。對於所有流表,新行添加到表中。
全部刷新所有:所有生活表更新,以反映當前狀態的輸入數據來源。流表,三角洲生活表試圖清除所有數據從每個表,然後加載所有數據流源。
刷新選擇的行為:
刷新選擇
是一樣刷新所有
,但允許你隻刷新選擇表。選擇生活表更新,以反映當前狀態的輸入數據來源。對於選定的流表,新行添加到表中。全部刷新選擇的行為:
完整的刷新選擇
是一樣完整的刷新所有
,但允許您執行全麵刷新隻選擇表。選擇生活表更新,以反映當前狀態的輸入數據來源。為選定的流表,δ生活表試圖清除所有數據從每個表,然後加載所有數據流源。
現有的生活表,更新相同的行為作為一個SQL刷新
物化視圖。為新生活表,和SQL一樣的行為創建
操作。
開始為選擇管道更新表
你可能想要再加工數據隻在你的選擇的表管道。例如,在開發期間,你隻修改一個表,想減少測試時間,或管道更新失敗,你想隻刷新失敗的表。
請注意
您可以使用選擇性刷新隻有引發管道。
開始一個更新,刷新選擇的表,在管道的細節頁麵:
點擊選擇表刷新。的選擇表刷新對話框出現了。
如果您沒有看到選擇表刷新按鈕,確保管道的細節頁麵顯示最新更新,更新完成。如果DAG不顯示最新的更新,例如,因為更新失敗,選擇表刷新按鈕不顯示。
選擇表刷新,點擊每個表。所選表突出顯示和標記。刪除一個表的更新,再次單擊表。
點擊刷新選擇。
請注意
的刷新選擇按鈕在括號中顯示選擇的表數量。
再加工的數據已經被吸收為選定的表,點擊旁邊的刷新選擇按鈕,點擊全部刷新選擇。
開始一個管道更新失敗的表
如果管道更新失敗,因為在一個或多個表的錯誤管道圖,你可以開始一個更新的失敗表和任何下遊依賴性。
請注意
排除表不刷新,即使他們依賴表失敗。
更新失敗的表上管道的細節頁麵,點擊刷新失敗的表。
隻更新選擇失敗的表:
點擊旁邊的刷新失敗的表按鈕,點擊選擇表刷新。的選擇表刷新對話框出現了。
選擇表刷新,點擊每個表。所選表突出顯示和標記。刪除一個表的更新,再次單擊表。
點擊刷新選擇。
請注意
的刷新選擇按鈕在括號中顯示選擇的表數量。
再加工的數據已經被吸收為選定的表,點擊旁邊的刷新選擇按鈕,點擊全部刷新選擇。
連續與管道執行觸發
如果管道使用觸發成功刷新後的執行模式,係統停止處理管道中的所有表或選擇的表一次,確保每個表的一部分更新更新更新開始時根據可獲得的數據。
如果管道使用連續執行,三角洲生活表流程新數據到達數據源保持整個管道表新鮮。
執行模式是獨立於類型的表被計算。物化視圖和流表可以更新執行模式。在連續的執行模式,避免不必要的處理管道自動監控依賴三角洲表和執行更新隻有當這些依賴表的內容已經改變了。
請注意
三角洲生活表運行時無法檢測non-Delta數據源的變化。表仍然是定期更新,但更高的違約觸發間隔,防止過度重新計算減速任何增量處理發生在集群上。
如何選擇管道邊界
δ生活表管道可以更新一個表過程,許多具有依賴關係的表,很多表沒有關係,或者多個indpendent流表的依賴關係。本節包含的考慮,以幫助確定如何打破你的管道。
大三角洲生活表管道有很多好處。這些包括以下幾點:
更有效地使用集群資源。
減少管道的數量在你的工作區。
減少工作流程編製的複雜性。
一些常見的建議應該如何分割處理管道包括以下:
在團隊邊界分割功能。例如,您的團隊可能維持管道將數據而數據分析師保持管道,轉換後的數據進行分析。
在特定於應用程序的功能邊界分割降低耦合和促進共同功能的重用。
開發和生產模式
你可以通過切換優化管道執行開發和生產模式。使用在管道UI按鈕這兩個模式之間進行切換。默認情況下,管道在開發模式下運行。
當您運行您的管道開發模式下,三角洲生活表係統如下:
重用一個集群,以避免重啟的開銷。默認情況下,集群發展模式被啟用時跑了兩個小時。你可以改變這一切
pipelines.clusterShutdown.delay
設置在配置您的計算設置。禁用管道重試,這樣你就可以立即檢測並修複錯誤。
在生產模式下,三角洲生活表係統如下:
為特定的可恢複錯誤重新啟動集群,包括內存泄漏和陳舊的憑證。
重試時執行特定的錯誤,例如,一個失敗的開始一個集群。
請注意
開發和生產模式之間輕鬆切換隻控製集群和管道執行行為。存儲位置和目標模式出版的目錄表必須作為管道的設置和配置模式之間切換時不受影響。
安排一個管道
你可以手動觸發管道或管道運行時間表磚工作。你可以創建一個單一管道的工作任務和進度直接在三角洲地區的生活表UI或添加一個管道任務界麵的多任務的工作流程工作。
創建一個單一任務工作和安排工作在三角洲地區的生活表界麵:
點擊時間表>添加一個時間表。的時間表更新按鈕顯示現有的時間表,如果管道的數量是包含在一個或多個預定工作,例如,表(5)。
輸入一個名稱的工作作業名字段。
設置時間表來計劃。
指定時間、起始時間和時區。
配置一個或多個電子郵件地址來接收警報在管道開始,成功,或失敗。
點擊創建。