什麼是Lakehouse ?

通過Ben Lorica,邁克爾時常要,雷諾鑫,馬泰Zaharia和阿裏Ghodsi

2020年1月30日在工程的博客

分享這篇文章

在磚在過去的幾年中,我們已經看到一個新的數據管理體係結構,出現在許多客戶和獨立用例:beplay体育app下载地址的lakehouse。在這篇文章裏,我們描述這個新的體係結構及其優勢之前的方法。

數據倉庫有悠久的曆史在決策支持和商業智能應用程序。《盜夢空間》在1980年代末以來,數據倉庫技術繼續發展和MPP架構導致係統能夠處理更大的數據大小。但同時為結構化數據倉庫是偉大的,很多現代企業必須處理非結構化數據,半結構化數據,和數據高的品種,速度,和體積。數據倉庫是不適合這些用例,他們當然不是最有效的成本。

隨著企業開始從許多不同的來源,收集大量數據架構師開始想象一個係統為許多不同的數據分析產品和工作負載。大約十年前公司開始建設數據的湖泊——倉庫各種格式的原始數據。而適合存儲數據,數據湖泊缺乏一些重要的特點:他們不支持事務,他們不執行數據質量,及其一致性/隔離的缺乏使得它幾乎不可能把附加和讀取,和批處理和流媒體工作。由於這些原因,許多數據湖泊的承諾沒有兌現,在許多情況下導致的損失很多數據倉庫的好處。

需要一種靈活的、高性能的係統並沒有減弱。公司要求不同的數據應用係統包括SQL分析,實時監控,數據科學和機器學習。大部分的人工智能的最新進展更好的模型來處理非結構化數據(文本、圖像、視頻、音頻),但恰恰是這些類型的數據,數據倉庫是沒有優化。一個常見的方法是使用多個係統——數據湖,一些數據倉庫,和其他專業係統,如流,時間序列,圖形和圖像數據庫。擁有眾多的係統引入了複雜性和更重要的是,介紹延遲數據專業人員總是需要不同的係統之間移動或複製數據。

什麼是lakehouse ?

新係統也開始出現,解決數據湖泊的局限性。lakehouse是一種新的開放式體係結構,結合最好的湖泊和數據倉庫的數據元素。Lakehouses啟用了一個新的係統設計:實現類似的數據結構和數據管理功能直接在數據倉庫上的低成本的雲存儲在開放格式。他們是什麼你會得到如果你不得不重新設計數據倉庫在現代世界,現在,廉價和高可靠的存儲(以對象的形式存儲)是可用的。

一個lakehouse具有以下主要特點:

事務支持:在企業lakehouse許多數據管道經常會並發讀寫數據。同時支持ACID事務確保一致性作為多個政黨讀或寫數據,通常使用SQL。
模式執行和治理:Lakehouse應該有一種方法來支持模式的實施和發展,支持DW模式架構如星/雪花模式。係統應該能夠推斷數據完整性,它應該有強有力的治理和審計機製。
BI支持:Lakehouses啟用使用BI工具直接在源數據。這樣可以減少腐敗和提高近因,減少延遲,降低的成本實施的兩個拷貝數據數據湖和一個倉庫。
存儲與計算:在實踐中這意味著存儲和計算使用單獨的集群,因此這些係統可以擴展到更多的並發用戶和較大的數據大小。一些現代數據倉庫也有這個屬性。
開放:他們所使用的存儲格式是開放和標準化、拚花等,他們提供了一個API,所以各種工具和引擎,包括機器學習和Python / R庫,可以有效地訪問數據直接。
支持各種數據類型從非結構化結構化數據:lakehouse可以用於存儲,提煉,分析和訪問許多新的數據應用程序所需的數據類型,包括圖像、視頻、音頻、半結構化數據和文本。
支持不同的工作負載:包括數據科學、機器學習和SQL和分析。可能需要多個工具來支持所有這些工作負載,但是他們都依賴於相同的數據存儲庫。
端到端流:實時報告是許多企業的常態。支持流媒體不需要獨立的係統致力於提供實時數據的應用程序。

這些是lakehouses的關鍵屬性。企業等級係統需要額外的特性。安全性和訪問控製基本要求的工具。數據治理功能,包括審計、保留和傳承已經成為重要的特別是在最近的隱私法規。工具,使數據發現等數據目錄和數據也需要使用指標。lakehouse,隻需要實現這樣的企業特性,測試,和一個係統的管理。

閱讀完整的研究論文Lakehouse的內部運作。

一些早期的例子

的磚Lakehouse平台Beplay体育安卓版本lakehouse的建築特色。微軟的Azure突觸分析服務,集成了Azure磚,使一個類似lakehouse模式。等管理服務BigQuery和光譜紅移上麵列出的一些lakehouse特性,但他們的例子,主要側重於BI和其他SQL應用程序。公司想要構建和實現他們自己的係統訪問開源文件格式(三角洲湖,Apache的冰山,Apache Hudi適合構建lakehouse)。

湖泊和數據倉庫集成到一個單一係統中合並數據意味著數據團隊可以移動得更快,因為他們可以使用數據,而不需要訪問多個係統。SQL支持和水平與BI工具集成在這些早期lakehouses通常是足夠的對於大多數企業數據倉庫。物化視圖和存儲過程是可用的,但用戶可能需要采用其他機製並不等同於那些傳統的數據倉庫。後者尤其重要”提升和轉變場景”,這要求係統實現語義是幾乎相同的年齡的增長,商業數據倉庫。

支持其他類型的數據應用程序呢?用戶的lakehouse獲得各種標準工具(火花Python, R,機器學習庫)等非BI工作負載數據科學和機器學習。數據探索和改進標準許多分析和數據科學應用。三角洲湖的目的是讓用戶逐步提高數據的質量在他們lakehouse直到它準備消費。

注意技術構建塊。而分布式文件係統可以用於存儲層,對象存儲在lakehouses更常用。對象存儲提供低成本、高可用的存儲,擅長大規模並行讀取——現代數據倉庫的基本要求。

從BI人工智能

lakehouse是一種新的數據管理體係結構,從根本上簡化了企業數據的基礎設施和加速創新的時代,機器學習準備破壞每一個行業。過去的大多數數據進入一個公司的產品或決策是從操作係統結構化數據的,而今天,許多產品結合人工智能在計算機視覺的形式和語言模型中,文本挖掘等。為什麼要使用lakehouse代替人工智能數據湖嗎?lakehouse給你數據版本控製、治理、安全甚至ACID屬性,需要對非結構化數據。

當前lakehouses降低成本,但他們的表現仍然可以延遲專業係統(比如數據倉庫),多年的投資和實際部署。用戶可能喜歡某些工具(BI工具、ide、筆記本)別人lakehouses還需要提高他們的用戶體驗和連接器流行的工具,這樣他們就可以吸引各種各樣的角色。這些問題和其他一些問題將隨著技術的不斷成熟和發展。隨著時間的推移lakehouses如何填補這些漏洞,同時保留的核心屬性被更簡單、更高效,更有能力為不同數據的應用程序。

讀了FAQ Lakehouse數據為更多的細節。