如何增量ETL和數據湖泊讓生活更簡單嗎

通過John O 'Dwyer

2021年8月30日在工程數據

分享這篇文章

得到的早期預覽O ' reilly的新電子書一步一步的指導你需要開始使用三角洲湖。

增量ETL(提取、轉換和加載)在傳統數據倉庫已經變得司空見慣,美國疾病控製與預防中心(變化數據捕獲)來源,但規模、成本、占機器學習的狀態和缺乏訪問不到理想。相比之下,增量ETL數據沒有可能由於湖等因素無法更新數據並確定改變了大數據表中的數據。好了,直到現在還沒有可能。增量ETL過程有很多好處,包括它是高效、簡單和產生一個靈活的數據結構,數據科學家和數據分析師都可以使用。這個博客走過這些優勢的增量ETL和數據架構,支持這種現代的方法。

首先讓我們深入什麼增量ETL。在一個較高的水平,這是源和目的地之間的運動數據,但隻有當新的或更改的數據移動。穿過增量數據ETL可以幾乎任何東西——網絡流量事件或物聯網傳感器讀數(附加的數據)或企業數據庫的變化(CDC)的情況。增量ETL可以預定作為低延遲的工作或連續運行訪問新數據,比如,對於商業智能(BI)的用例。下麵的體係結構顯示了如何通過多個表增量數據可以移動和變換,每一個都可以用於不同的目的。

磚增量ETL過程高效實現大獎章的表結構,使所有消費者的數據可以有正確的數據集策劃他們的需求。

ETL和數據增量湖泊的優點

利用增量ETL。有很多原因開源的大數據技術,如三角洲湖和Apache引發™,讓它更無縫工作規模,有成本效益的和無需擔心廠商鎖定。頂部采取這種方法的優點包括:

便宜的大數據存儲:使用大數據存儲與數據倉庫可以存儲分開計算並保留所有曆史數據的方式不是成本高昂,給你回去的靈活性和運行不同的轉換在設計時不可預見的。
效率:使用增量ETL,您可以處理隻需要處理的數據,新數據或更改的數據。這使ETL效率,降低成本和處理時間。
多個數據集和用例:每個數據集著陸過程中有不同的用途,可以被不同的用戶角色。例如,精煉和聚合數據集(黃金表)使用數據分析師的報告,和精製文件數據使用數據科學家構建毫升模型。這就是大獎章表結構真的可以幫助得到更多的從你的數據。
原子和總是可用的數據:增量自然的處理使數據可用以來的任何時候你不吹走或加工數據。這使得中間和最終狀態表提供給不同的角色在任何給定的時間點上。原子性的數據意味著,行級,要麼行完全成功或失敗,這使得它可以讀取數據,因為它是。直到現在,在大數據技術、原子性的行級已經不可能。增量ETL的變化。
有狀態的變化:知道ETL在任何給定的點在哪裏狀態。國家可以在ETL很難跟蹤,但增量ETL跟蹤狀態的特性在默認情況下,這使得編碼ETL變得容易得多。這有助於為計劃工作,當有一個錯誤去接你離開的地方。
延遲:容易掉的節奏從日常工作每小時在增量ETL不斷。延遲的時間差別是當數據可用來處理和加工,可以減少工作的節奏。
曆史數據集/再現性:序列數據,以及它如何在保存在訂單如果有一個錯誤或ETL需要複製,這是可以做到的。

如果增量ETL如此之大,為什麼我們沒有做嗎?

你可能會問自己這個問題。你可能熟悉架構的部分或這將如何工作在數據倉庫,它可以非常昂貴。讓我們來探討一些過去的原因,這樣一個架構很難完成之前探索大數據技術,使它成為可能。

成本:疾病預防控製中心的想法/事件驅動的ETL數據倉庫世界並不新鮮,但成本太高,它可以保持所有曆史數據在數據倉庫中,以及在多個表可以穿過的數據架構。更不用說成本和資源分配的情況下連續運行增量數據倉庫ETL流程或英語教學。英語教學是提取、加載,然後變換,常用的數據倉庫架構。
更新數據:聽起來微不足道,但直到最近,更新數據在數據湖一直是極其困難的,有時是不可能的,特別是在規模或同時讀取數據時。
狀態:逐步知道最後ETL作業了,撿起很困難如果你占國家特設,但是現在有技術,使它容易接你離開的地方。這個問題可以加劇當一個進程意外停止,因為一個例外。
效率低下的:處理不僅僅是改變可能需要很長時間和更多的資源。
大數據表作為一個增量數據源:這是現在可能因為特定的原子性質的大三角洲湖等數據表。它使中間表架構。

是什麼技術,幫助我們增量ETL涅槃?

我很高興你問!許多創新的Apache火花™和三角洲湖成為可能,容易建立數據體係結構建立在增量ETL。這是有可能的技術:

在三角洲湖ACID事務:三角洲湖提供ACID(原子性、一致性、隔離、耐久性)交易,這是小說大數據架構和基本數據lakehouses。行級ACID事務做出更新,以及識別行級的變化,在源/中間三角洲湖表成為可能。的合並操作使插入(行級插入和更新操作)非常容易。
檢查點:檢查點在火花結構化流允許簡單的狀態管理,這樣的狀態,ETL工作離開本質上是占在體係結構中。
Trigger.Once:觸發器。曾經是火花結構化流的特性,將連續的用例,從Apache卡夫卡,喜歡閱讀到一個預定的工作。這意味著,如果連續/低延遲ETL的範圍,你仍然可以使用的許多特性。也給你的靈活性下降的節奏安排工作並最終去連續用例沒有改變你的架構。

既然增量ETL可能使用大數據和開放源碼技術,你應該評估可以使用它在你的組織中,這樣您可以構建所需的所有策劃的數據集盡可能有效和容易!

閱讀更多關於開源技術,使增量ETL,結賬delta.io和spark.apache.org

免費試著磚

開始