跳轉到主要內容
Beplay体育安卓版本平台的博客

5個步驟來實現智能數據管道與達美住表

分享這篇文章

O ' reilly的早期預覽版的新電子書一步一步指導你需要開始使用三角洲湖


許多IT組織熟悉傳統的提取、轉換和加載(ETL)過程——一係列步驟定義和轉換數據從源移動到傳統數據倉庫和數據集市為報告目的。然而,隨著組織演變成為越來越多的數據驅動,和各種各樣的大量的數據,如交互、物聯網和移動數據,改變了企業數據格局。通過采用lakehouse架構組織現在有一個機製來管理,管理和安全的任何數據,任何延遲,以及處理數據規模到達實時或批處理分析和機器學習。

挑戰與傳統ETL

從概念上講,這聽起來很簡單——數據的ETL管道建設工程師已經執行多年在傳統數據倉庫的實現。然而,今天的現代數據需求、數據ETL管道工程師現在負責開發和實施以及維護端到端ETL生命周期。他們負責確保所有的乏味和手動任務的數據管道維護方麵:測試、錯誤處理、恢複和再加工。這突顯出數據工程團隊麵臨幾個挑戰提供值得信賴的,可靠的數據消費的用例:

  1. 複雜的管道開發:數據工程師大部分時間都定義和編寫代碼來管理ETL生命周期依賴性處理表,複蘇,回填,重試或錯誤條件和更少的時間應用業務邏輯。這可能是一個簡單的ETL過程變成一個複雜的數據管道實現。
  2. 缺乏數據質量:今天,數據是一個企業資產戰略必不可少的數據驅動的決策——但隻是提供數據並不是成功的決定因素。ETL過程應確保滿足業務需求的數據質量。許多數據工程師捉襟見肘,被迫關注交付數據分析或機器學習解決的來源不可靠的數據,進而導致不正確的見解,分析傾斜和不一致的建議。
  3. 端到端數據管道測試:數據工程師需要考慮數據轉換數據管道內的測試。端到端ETL測試必須處理所有有效的假設和排列的數據。數據轉換的應用程序測試,數據管道是保證順利運行,確認代碼正常工作為所有源數據的變化,防止代碼變更時回歸。
  4. Multi-latency數據處理:數據生成的速度使它具有挑戰性的數據工程師決定是否實現批處理或連續流數據管道。根據傳入的數據和業務需求、數據工程師需要改變的靈活性的延遲而無需重寫數據管道。
  5. 數據管道操作:隨著數據的增長在規模和複雜性和業務邏輯發生變化時,必須部署新版本的數據管道。數據團隊花周期設置數據處理基礎設施、手動編碼規模,以及重啟,修補和更新基礎設施。所有這些轉化為時間和成本的提高。當數據處理失敗,數據工程師花時間手工遍曆日誌了解失敗,清理數據和確定重啟。這些手冊和耗時的活動變得昂貴,導致開發成本重啟或升級數據管道,進一步推遲sla下遊消費數據。

現代自動化智能ETL方法

工程團隊需要重新考慮ETL數據生命周期來處理上述挑戰,獲得效率和及時可靠地交付高質量的數據。因此,一個現代化的自動化方法,智能ETL對快速移動的數據需求至關重要。

自動化智能ETL、數據工程師可以利用三角洲生活表(DLT)。一個新的原生雲托管服務磚Lakehouse平台Beplay体育安卓版本提供一個可靠的ETL框架來開發、測試和實施大規模的數據管道。

δ住表自動智能ETL的好處

通過簡化和現代化的方法構建ETL管道,三角洲生活表使:

  • 聲明ETL管道:而不是低級手動ETL邏輯,數據工程師可以利用SQL或Python構建聲明式管道——很容易定義“是什麼”,而不是“如何”去做。與DLT,他們指定如何變換和應用業務邏輯,而DLT自動管理管道內的所有依賴項。這樣可以確保所有表正確填充,連續或時間表。例如,更新一個表會自動觸發所有下遊表更新。
  • 數據質量:DLT驗證數據流經管道的期望,以確保其質量和一致性定義業務規則。DLT自動跟蹤和報告所有質量的結果。
  • 錯誤處理和恢複:DLT可以處理瞬態錯誤和恢複最常見的錯誤條件發生在管道的操作。
  • 連續的,不間斷的處理:DLT允許用戶設置的延遲數據更新到目標表,而不必知道複雜的流處理和實現複蘇的邏輯。
  • 管道的可見性:DLT監控整體管道房地產狀況從數據流圖的儀表板和視覺跟蹤的端到端管道衛生性能、質量、狀況、延遲等等。這允許您跟蹤數據趨勢在理解性能瓶頸和管道運行的行為。
  • 簡單的部署:DLT使您能夠部署管道投產或回滾管道通過單擊和最小化停機時間所以你可以采用持續集成/持續部署流程。

數據工程師如何實現智能數據管道5步驟

實現自動化,智能ETL,我們來看看五個步驟數據工程師需要實現數據管道使用DLT成功。

步驟1。數據攝取到Lakehouse自動化

數據工程師麵臨的最重要的挑戰是有效地將各種數據類型,例如結構化、非結構化或半結構化數據到lakehouse。磚,他們可以使用自動加載程序在批處理或有效地移動數據流模式以低成本進入lakehouse和延遲沒有額外的配置,如觸發或人工調度。

自動加載程序利用一個簡單的語法,叫做cloudFiles,自動檢測和增量過程為到達的新文件。

使用磚自動加載程序,數據工程師使用一個簡單的語法,叫做cloudFiles,它會自動檢測並逐步過程為到達的新文件。

自動加載程序自動檢測變化傳入的數據結構,這意味著不需要管理模式變化的跟蹤和處理。例如,當接收數據,定期介紹新列,數據工程師使用傳統ETL工具通常必須停止他們的管道,然後重新部署更新他們的代碼。自動加載程序,他們可以利用模式演化和處理工作負載與更新的模式。

步驟2:在Lakehouse轉換數據

數據攝取到lakehouse,數據工程師需要將數據轉換或業務邏輯應用到傳入的數據,將原始數據轉化為結構化數據準備分析,數據科學或機器學習。

DLT提供SQL或Python的全功率變換原始數據之前加載到表或視圖。轉換數據可以包括幾個步驟,如加入數據從幾個數據集,創建聚合、排序、派生新列,數據格式轉換或應用驗證規則。

與達美住表、數據工程師SQL或Python的全功率變換原始數據之前加載到表或視圖。

步驟3:在Lakehouse確保數據的質量和完整性

數據質量和完整性是必不可少的在確保整體的一致性lakehouse中的數據。DLT,工程師有能力定義數據質量和完整性控製在聲明指定的數據管道三角洲的期望,如應用列值檢查。

與Datbricks三角洲生活表,數據工程師可以定義數據質量和完整性控製數據管道內聲明指定三角洲的期望。

例如,一個數據工程師可以輸入日期列上創建一個約束,預計將不是零和特定日期範圍內。如果不滿足此條件,則行將下降。下麵的語法顯示兩列叫做pickup_datetime dropoff_datetime預計不空,如果dropoff_datetime大於pickup_datetime然後刪除行。

根據臨界數據和驗證,數據工程師可能希望管道要麼刪除行,允許行,或阻止管道處理。

約束valid_pickup_time期望(pickup_datetimedropoff_datetime(dropoff_datetime>pickup_datetime))違反下降

捕獲所有的數據質量指標的數據管道事件日誌,允許數據質量進行跟蹤和報告整個數據管道。使用可視化工具,可以創建報告了解數據集的質量,通過還是失敗多少行數據質量檢查。

步驟4:自動ETL部署和操作化

與今天的數據需求,有一個關鍵的敏捷和自動化生產需要部署。團隊需要更好的方法來自動化ETL過程,templatize管道和抽象底層ETL手動來滿足不斷增長的業務需求,正確的數據,沒有重新發明輪子。

當部署數據管道,DLT創建一個圖,理解語義和顯示表和視圖定義的管道。這個圖表創建一個高質量、高保真譜係圖提供可見性數據流,可以用於影響分析。此外,DLT檢查錯誤,缺失的依賴關係和語法錯誤,並自動鏈接表或視圖定義的數據管道。

磚三角洲的生活表檢查錯誤,缺失的依賴關係,語法錯誤,自動鏈接表或視圖定義的數據管道。

這種驗證完成後,DLT高性能和可伸縮的數據管道運行Apache火花™兼容計算引擎,自動創建優化大規模集群執行ETL工作負載。DLT然後創建或更新表或視圖中定義的ETL和可用的最新數據。

工作負載運行,DLT捕獲的所有細節管道執行在一個事件日誌表的性能和狀態行級管道。細節,如記錄的數量加工、管道的吞吐量,和更多的環境設置,存儲在事件日誌可以查詢的數據工程團隊。

工作負載運行,磚三角洲的生活表捕獲所有管道執行的細節在一個事件日誌表的性能和狀態行級管道。

在發生係統故障時,DLT自動停止並啟動管道;不需要代碼核對基準點或手動管理數據管道操作。DLT自動管理的複雜性需要重啟,回填,重新運行數據管道從一開始或部署一個新版本的管道。

當部署一個DLT管道從一個環境到另一個,例如,用戶可以從開發到測試到生產參數化數據管道。使用一個配置文件,它們可以提供參數特定於部署環境重用相同的管道和轉換邏輯。

如何構建數據管道與達美住表嗎

第五步:調度的數據管道

最後,數據工程師需要編排ETL工作負載。DLT管道與磚可以安排工作,使自動化完全支持端到端運行生產使用的管道。磚的工作包含一個調度程序,允許數據工程師指定一個周期安排的ETL工作負載和工作運行時設置通知成功或遇到問題。

三角洲生活表管道與磚可以安排工作,使自動化完全支持端到端運行生產使用的管道。

最終的想法

隨著組織努力成為數據驅動、數據工程是成功的一個焦點。提供可靠、值得信賴的數據,數據工程師不需要花時間手動開發和維護一個端到端的ETL生命周期。數據工程團隊需要一個高效的、可伸縮的方法來簡化ETL開發,提高了數據的可靠性和管理操作。

三角洲生活表抽象複雜ETL生命周期通過自動化管理和維護所有數據依賴關係,利用內置的質量控製與監測和提供深可見性管道操作自動恢複。數據工程團隊現在可以專注於輕鬆和快速構建可靠的端到端數據管道生產就緒隻使用SQL或Python提供了高價值的批處理和流媒體數據分析,數據科學或機器學習。

下一個步驟

看看我們的一些資源,當你準備好,請使用下麵的鏈接請求訪問DLT服務。

免費試著磚

相關的帖子

看到所有Beplay体育安卓版本平台的博客的帖子
Baidu
map