Data Lakehouse
回到詞彙表什麼是數據湖房?
Data Lakehouse是一種新的開放數據管理體係結構,結合了靈活性,成本效益和規模數據湖隨著數據倉庫的數據管理和酸性交易,所有數據啟用商業智能(BI)和機器學習(ML)。Data Lakehouse:簡單,靈活性和低成本
數據湖泊由新的開放係統設計啟用:直接以數據湖泊使用的低成本存儲方式實現相似的數據結構和數據管理功能。將它們合並到單個係統中意味著數據團隊在不需要訪問多個係統的情況下使用數據時可以更快地移動。數據湖泊還確保團隊擁有可用於數據科學,機器學習和業務分析項目的最完整和最新數據。啟用Data Lakehouse的關鍵技術
有一些關鍵的技術進步使數據湖設有:- 數據湖的元數據層
- 新查詢引擎設計在數據湖上提供高性能SQL執行
- 優化數據科學和機器學習工具的訪問。
數據體係結構的曆史
數據倉庫的背景
數據倉庫在決策支持和商業智能應用程序方麵的曆史悠久,盡管不適合或昂貴用於處理非結構化數據,半結構化數據以及具有較高品種,速度和音量的數據。數據湖的出現
然後出現數據湖泊,以各種格式以廉價存儲的數據科學和機器學習來處理原始數據,盡管數據倉庫世界缺乏關鍵功能:它們不支持交易,他們不強製執行數據質量,並且缺乏數據質量一致性/隔離幾乎無法混合附加和讀取以及批處理和流媒體作業。常見的兩層數據體係結構
因此,數據團隊將這些係統拚接在一起,以在這兩個係統中啟用BI和ML跨數據,從而產生重複的數據,額外的基礎架構成本,安全挑戰和大量的運營成本。在兩層數據架構中,數據是從操作數據庫到數據湖的ETLD。該湖泊將整個企業的數據存儲在低成本對象存儲中,並以與普通機器學習工具兼容的格式存儲,但通常無法組織和維護。接下來,再次將關鍵業務數據的一小部分ETLD加載到數據倉庫中,以進行商業智能和數據分析。由於多個ETL步驟,根據Kaggle和Fivetran最近的調查,這種兩層體係結構需要定期維護並經常導致數據穩定性,這是數據分析師和數據科學家的重大關注。了解更多有關兩層體係結構的常見問題。其他資源
回到詞彙表