數據lakehouse是一個新的、開放數據管理體係結構,結合了靈活性,成本效益和規模數據的湖泊數據倉庫的數據管理和ACID事務,使商業智能(BI)和機器學習(ML)所有數據。
數據lakehouses啟用了一個新的、開放係統設計:實現類似的數據結構和數據管理功能在數據倉庫中,直接在低成本存儲用於數據的湖泊。合並在一起成一個單一的係統意味著數據團隊可以移動得更快,因為他們能夠使用數據,而不需要訪問多個係統。數據lakehouses也確保團隊擁有最完整的和最新的數據用於數據科學、機器學習和業務分析項目。
有一些關鍵的技術進步使得數據lakehouse:
元數據層開源三角洲湖一樣,坐在上麵打開文件格式(如。鑲花的文件)和跟蹤哪些文件是不同的表版本的一部分,提供了豐富的管理功能,如符合acid事務將。數據lakehouses中常見的元數據層實現其他功能,如支持流式I / O(不再需要消息巴士就像卡夫卡),時間旅行舊表版本,執行模式和演化,以及數據驗證。性能是關鍵數據lakehouses成為今天企業所使用的主要數據架構的關鍵原因之一,數據倉庫中存在兩層體係結構。而湖泊使用低成本對象存儲的數據訪問在過去一直很緩慢,新的查詢引擎的設計使高性能SQL分析。這些優化緩存熱數據包含在RAM / ssd(可能轉換成更高效的格式),數據布局優化集群co-accessed數據,輔助數據結構,如統計數據和索引和矢量化現代的cpu上執行。這些技術結合在一起使得在大型數據集數據lakehouses實現性能競爭對手流行的數據倉庫,根據TPC-DS基準。的lakehouses開放數據格式所使用的數據(如拚花),使它非常容易對機器學習數據科學家和工程師lakehouse訪問數據。他們可以使用工具在DS /毫升生態係統像熊貓,TensorFlow, PyTorch和其他人拚花和獸人已經可以訪問來源。火花DataFrames甚至為這些開放格式提供聲明接口啟用更多的I / O優化。lakehouse數據的其他特性,如審計曆史和時間旅行,也幫助改進機器學習的再現性。學習更多的關於技術進步支撐數據lakehouse,看到CIDR紙Lakehouse:新一代的開放式平台,統一數據倉庫和先進的分析Beplay体育安卓版本和另一篇學術論文三角洲湖:高性能酸表存儲在雲存儲對象。
在決策支持數據倉庫有悠久的曆史和商業智能應用程序,但不適合或昂貴的處理非結構化數據,半結構化數據,和數據高,速度,和體積。
數據然後湖泊出現來處理原始數據對廉價存儲各種格式的數據科學和機器學習,盡管缺乏關鍵特性的數據倉庫:他們不支持事務,他們不執行數據質量,及其一致性/隔離的缺乏使得它幾乎不可能把附加和讀取,和批處理和流媒體工作。
數據團隊一起因此針這些係統使BI和ML跨在這兩個係統的數據,導致重複數據,額外的基礎設施成本、安全挑戰,重要的運營成本。在兩層數據架構中,數據從操作數據庫為數據ETLd湖。這個湖從整個企業在低成本存儲數據對象存儲和存儲在一個格式兼容常見的機器學習工具,但通常不是組織和維護。接下來,一小段的關鍵業務數據ETLd再次加載到數據倉庫的商業智能和數據分析。由於多個ETL步驟,這兩層架構需要定期維護和往往導致數據過時,很重要的問題的數據分析師和數據科學家都根據Kaggle和Fivetran最近的調查。了解更多的常見問題與兩層體係結構。