Data Lakehouse

回到詞彙表

什麼是數據湖房?

Data Lakehouse是一種新的開放數據管理體係結構,結合了靈活性,成本效益和規模數據湖隨著數據倉庫的數據管理和酸性交易,所有數據啟用商業智能(BI)和機器學習(ML)。

Data Lakehouse:簡單,靈活性和低成本

數據湖泊由新的開放係統設計啟用:直接以數據湖泊使用的低成本存儲方式實現相似的數據結構和數據管理功能。將它們合並到單個係統中意味著數據團隊在不需要訪問多個係統的情況下使用數據時可以更快地移動。數據湖泊還確保團隊擁有可用於數據科學,機器學習和業務分析項目的最完整和最新數據。數據存儲的演變,從數據倉庫到數據湖再到數據湖區

啟用Data Lakehouse的關鍵技術

有一些關鍵的技術進步使數據湖設有:
  • 數據湖的元數據層
  • 新查詢引擎設計在數據湖上提供高性能SQL執行
  • 優化數據科學和機器學習工具的訪問。
元數據層,就像開源三角洲湖一樣,坐在開放式文件格式的頂部(例如鑲木文件)並跟蹤哪些文件是不同表版本的一部分,可提供諸如符合酸性交易的豐富管理功能。元數據層啟用了數據湖區中常見的其他功能,例如對流式I/O的支持(消除了諸如Kafka之類的消息總線的需求),時間到舊表版本,架構執行和進化以及數據驗證。表現是數據湖泊成為當今企業使用的主要數據架構的關鍵,因為這是數據倉庫中存在兩層體係結構中的關鍵原因之一。雖然過去使用低成本對象存儲的數據湖訪問很慢,但新的查詢引擎設計可實現高性能SQL分析。這些優化包括在RAM/SSD中緩存熱數據(可能已轉碼為更有效的格式),數據布局優化以聚類共同訪問數據,統計數據和索引等輔助數據結構以及對現代CPU的矢量執行。將這些技術組合在一起,使數據湖區能夠基於TPC-DS基準測試,在競爭流行數據倉庫的大型數據集上達到性能。這數據湖區使用的開放數據格式(像鑲木quet),使它非常易於數據科學家和機器學習工程師訪問Lakehouse中的數據。他們可以使用DS/ML生態係統中流行的工具,例如Pandas,TensorFlow,Pytorch和其他已經可以訪問Parquet和orc等資源的其他人。火花數據範圍甚至為這些開放格式提供聲明性接口,從而進一步優化I/O。Data Lakehouse的其他功能,例如審計曆史記錄和時間旅行,也有幫助改善機器學習的可重複性。要了解有關該技術進步的更多信息,即搬到Data Lakehouse,請參閱CIDR紙Lakehouse:新一代的開放平台,統一數據倉庫和高級分析Beplay体育安卓版本還有另一篇學術論文三角洲湖:高性能酸桌存儲在雲對象存儲上

數據體係結構的曆史

數據倉庫的背景

數據倉庫在決策支持和商業智能應用程序方麵的曆史悠久,盡管不適合或昂貴用於處理非結構化數據,半結構化數據以及具有較高品種,速度和音量的數據。

數據湖的出現

然後出現數據湖泊,以各種格式以廉價存儲的數據科學和機器學習來處理原始數據,盡管數據倉庫世界缺乏關鍵功能:它們不支持交易,他們不強製執行數據質量,並且缺乏數據質量一致性/隔離幾乎無法混合附加和讀取以及批處理和流媒體作業。

常見的兩層數據體係結構

因此,數據團隊將這些係統拚接在一起,以在這兩個係統中啟用BI和ML跨數據,從而產生重複的數據,額外的基礎架構成本,安全挑戰和大量的運營成本。在兩層數據架構中,數據是從操作數據庫到數據湖的ETLD。該湖泊將整個企業的數據存儲在低成本對象存儲中,並以與普通機器學習工具兼容的格式存儲,但通常無法組織和維護。接下來,再次將關鍵業務數據的一小部分ETLD加載到數據倉庫中,以進行商業智能和數據分析。由於多個ETL步驟,根據Kaggle和Fivetran最近的調查,這種兩層體係結構需要定期維護並經常導致數據穩定性,這是數據分析師和數據科學家的重大關注。了解更多有關兩層體係結構的常見問題

其他資源


回到詞彙表
Baidu
map