提取轉換加載(ETL)

ETL是什麼?

的數據量、數據來源和數據類型在組織成長,利用這些數據的重要性分析,數據科學和機器學習計劃獲得業務洞察力增長。需要優先考慮這些舉措將麵臨越來越大的壓力數據工程團隊,因為處理原始的、混亂的數據放入幹淨、新鮮的、可靠的數據是一個關鍵的步驟之前,這些行動可以追求。ETL,代表提取、轉換和加載,過程數據工程師使用提取來自不同數據源的數據,將數據轉換為可用的和值得信賴的資源,和數據加載到係統下遊終端用戶可以訪問和使用來解決業務問題。

ETL是如何工作的呢?

提取

這個過程的第一步是提取數據從目標來源通常是異構等業務係統,api,傳感器數據,營銷工具,和事務數據庫,和其他人。正如你所看到的,這些數據類型可能是廣泛使用的結構化輸出係統,而另一些則半結構化JSON服務器日誌。有不同的方法來執行提取:三個數據提取方法:

部分提取,最簡單的方法獲得數據如果如果源係統通知你當一個記錄已經發生了改變
部分提取(更新通知)——不是所有的係統都能提供一個通知,以防更新發生;然而,他們可以指出這些記錄已經改變,提供一個提取的記錄。
完整的提取,有些係統無法識別哪些數據已經改變了。在這種情況下,一個完整的提取是唯一可能提取數據從係統中出來。此方法需要有一份最後提取相同的格式,所以您可以識別的變化。

變換

第二步包括轉換的原始數據從數據源提取到不同的應用程序可以使用的格式。在這個階段,數據變得潔淨,映射和轉換,經常到一個特定的模式,所以它滿足業務的需要。這個過程需要幾種類型的轉換,以確保數據的質量和完整性數據通常不直接加載到目標數據源,而是通常把它上傳到一個臨時數據庫。這一步確保了快速的回滾,以防沒有按計劃進行。在這個階段,你有可能為法規遵從性,生成審計報告或診斷和修複任何數據問題。

負載

最後,load函數編寫轉換的過程數據暫存區域目標數據庫,以前可能有也可能沒有存在。根據應用程序的需求,這一過程可能非常簡單或複雜的。每一個步驟可以用ETL工具或自定義代碼。

ETL管道是什麼?

ETL管道(或數據管道)的機製ETL過程發生。數據管道是一套工具和活動將數據從一個係統移動到另一個數據存儲和處理的方法係統,它可以存儲和管理不同。此外,管道允許自動獲取信息從許多不同的來源,然後轉換和整合在一個高性能的數據存儲。

挑戰與ETL

ETL是至關重要的,這個指數增加數據源和類型,建立和維護可靠的數據管道已成為一項非常有挑戰性的工程部分的數據。從一開始,建立管道,確保數據可靠性是緩慢和困難。數據管道是由複雜的代碼和有限的可重用性。管道建在一個環境不能用於另一個,即使底層代碼非常相似,這意味著數據工程師通常瓶頸和負責每次重新發明輪子。除了管道發展,在日益複雜的管道數據質量管理架構是很困難的。壞數據通常是允許流過管道未被發現,整個數據集貶值。保持質量,確保可靠的見解,數據工程師需要編寫大量自定義代碼來實現質量檢查和驗證每一步的管道。最後,隨著管道在規模和複雜性的增長,公司麵臨著增加操作負載管理使得數據可靠性非常難以維護。數據處理基礎設施已經建立了,重新啟動,修補,和更新——轉化為時間和成本的提高。管道故障難以識別和更難以解決,由於缺乏可見性和工具。不管所有這些挑戰,可靠的ETL絕對是一個至關重要的過程對於任何業務,希望成為insights-driven。 Without ETL tools that maintain a standard of data reliability, teams across the business are required to blindly make decisions without reliable metrics or reports. To continue to scale, data engineers need tools to streamline and democratize ETL, making the ETL lifecycle easier, and enabling data teams to build and leverage their own data pipelines in order to get to insights faster.

自動可靠的ETL三角洲湖上

三角洲生活表(DLT)可以輕鬆地構建和管理可靠數據管道三角洲湖上提供高質量的數據。DLT幫助數據工程團隊簡化ETL開發和管理聲明式管道開發、自動測試和深可見性監測和恢複。

額外的資源

回到術語表