與數據倉庫數據Lakehouses如何解決常見問題
Lakehouse讀取的數據探索為什麼lakehouses未來的數據架構和數據倉庫的父親,Bill Inmon。
編者按:這是第一個在一係列的文章主要基於CIDR紙Lakehouse:新一代的開放式平台,統一數據倉庫和先進的分析Beplay体育安卓版本從作者許可。
數據分析師、數據科學家,人工智能專家常常沮喪與基本缺乏高品質,可靠和最新的數據用於自己的工作。這些挫折是由於已知缺陷的兩層數據架構我們看到今天絕大多數的財富500強企業中普遍存在。開放lakehouse架構和基礎技術可以大大提高團隊的生產力數據,因此企業雇用他們的效率。
挑戰與兩層數據架構
從整個組織在這個流行的體係結構中,數據提取操作數據庫和原始數據加載到一個湖,有時被稱為數據沼澤由於缺少關心確保這個數據是可用的和可靠的。接下來,另一個ETL(提取、轉換、加載)過程上執行一個時間表將重要數據到數據倉庫的子集商業情報和決策。
這個架構提供數據分析師一個幾乎不可能的選擇:使用及時、可靠數據從數據湖或使用陳舊的和高質量的數據從數據倉庫。由於封閉的格式的數據倉庫解決方案,這也使得它很難使用占主導地位的開源數據分析框架在高質量的數據源不引入另一個ETL操作和添加額外的過時。
我們可以做得更好:Lakehouse引入數據
這些雙重數據架構,這是常見的在今天的企業,是高度複雜的用戶和數據工程師建造他們,不管他們舉辦本地或在雲中。
Lakehouse架構降低複雜性、成本和運營開銷,提供許多的可靠性和性能優勢數據的數據倉庫層直接上湖,最終消除了倉庫層。
數據的可靠性
數據一致性是一個不可思議的挑戰當你有多個副本的數據保持同步。有多個ETL過程——移動數據從業務數據庫的數據再次湖和湖從數據到數據倉庫。每個額外的過程引入了額外的複雜性,延誤和失效模式。
通過消除第二梯隊,數據lakehouse架構消除了ETL過程之一,而添加支持模式的實施和發展直接的數據。它還支持等功能時間旅行使曆史數據驗證清潔。
過時的數據
因為數據倉庫的數據填充湖,它往往是陳舊的。這迫使86%的分析師使用過時的數據,根據最近Fivetran調查。
而消除數據倉庫層解決了這個問題,lakehouse還可以支持高效、簡單和可靠的實時流合並加批處理,以確保最新的數據總是被用於分析。
高級分析的有限的支持
先進的分析方法,包括機器學習和預測分析,常常需要處理非常大的數據集。常見的工具,比如TensorFlow, PyTorch XGBoost,便於讀取原始數據湖泊在開放的數據格式。然而,這些工具不會閱讀大部分的專有數據格式使用ETL數據倉庫中的數據。倉庫供應商因此建議出口數據文件進行處理,導致三分之一ETL一步增加了複雜性和過時。
另外,在開放lakehouse架構中,這些常見的工具集可以直接在高質量、及時的數據存儲在數據湖。
所有權的總成本
雖然在雲中存儲成本下降,實際上這兩層體係結構數據分析有三個在線的企業數據的副本:一個在操作數據庫中,一個數據的湖,一個數據倉庫。
總擁有成本(TCO)進一步加劇當您添加相關的重大工程成本與保持數據同步存儲成本。
數據lakehouse架構消除了一個最昂貴的數據的副本,以及至少一個相關的同步過程。
商業智能的性能怎麼樣?
商業情報和決策支持需要高性能的執行探索性數據分析(EDA)查詢,以及推動儀表板查詢,數據可視化和其他關鍵係統。性能問題常常是公司維護數據倉庫的原因除了數據湖。技術優化查詢的數據湖泊無比在過去一年有所提高,使大部分的這些性能問題懸而未決。
Lakehouses支持索引、位置控製、查詢優化和熱數據緩存來提高性能。這導致數據湖SQL性能超過領先TPC-DS雲數據倉庫,同時也提供了靈活性和管理數據倉庫的期望。
結論和下一步
前瞻性的企業和技術人員看了今天所使用的兩層建築,說:“必須有一個更好的方法。“這更好的方式就是我們所說的開放數據lakehouse,湖數據的開放性和靈活性相結合的可靠性、性能、低延遲,和傳統數據倉庫的高並發性。
我將介紹更多細節改進數據湖性能在即將發布的本係列的。
當然,你可以欺騙和跳過閱讀完整的CIDR紙,或觀看視頻係列現代lakehouse深入底層技術支持。