潛水深入的內部運作Lakehouse和三角洲湖

通過喬爾的明

2020年9月10日在公司博客上

分享這篇文章

今年早些時候,磚寫了博客,概述了越來越多的企業采用lakehouse模式。博客創建大量的技術愛好者的興趣。雖然很多人稱讚它是下一代數據架構,有些人認為Lakehouse湖是一樣的數據。最近,我們的工程師和創業者的幾個寫一篇研究論文,描述的一些核心技術的挑戰和解決方案設置Lakehouse範式除了數據湖,這是接受並發表在國際會議上非常大的數據庫(VLDB) 2020。你可以看報紙,“三角洲湖:高性能酸表存儲在雲存儲對象”,在這裏。

亨利·福特的功勞往往被說:“如果我問別人他們想要什麼,他們會說更快的馬。”這句話的關鍵是人們經常想象一個更好的解決一個問題作為他們已經知道的進化,而不是完全重新思考解決問題的方法。在數據存儲的世界,這種模式多年來一直上演。供應商繼續試圖徹底改造的舊馬數據倉庫和數據湖泊而不是尋求新的解決方案。

十多年前,雲開了數據存儲的新邊疆。雲商店像Amazon S3對象已經成為一些世界上最大的和最有效的存儲係統,這使得他們一個有吸引力的平台來存儲數據倉庫和數據湖泊。Beplay体育安卓版本然而,他們的本性作為鍵值存儲很難實現ACID事務,許多組織需要。同時,性能是由於昂貴的元數據操作(如清單對象)和有限保證一致性。

讀數據Lakehouse上升探索為什麼lakehouses未來的數據架構和數據倉庫的父親,Bill Inmon。

基於對象存儲的特點,出現了三種方法。

數據的湖泊

第一個是目錄的文件(即數據湖泊),存儲表的對象集合,通常以柱狀格式如Apache拚花。這是一個有吸引力的方法,因為桌子是一組對象,可以從各種各樣的工具訪問沒有很多額外的數據存儲或係統。然而,性能和一致性問題是常見的。隱藏數據腐敗是常見的由於事務失敗,最終一致性導致不一致的查詢,延遲高,和基本管理功能表版本控製和審計日誌等不可用。

定製的存儲引擎

第二種方法是定製的存儲引擎,如專有係統構建雲像雪花的數據倉庫。這些係統可以繞過湖泊的數據的一致性挑戰管理元數據在一個單獨的、強烈一致的服務,能夠提供單一來源的真理。然而,所有I / O操作需要連接到這個服務元數據,它可以增加資源成本,減少性能和可用性。此外,它需要大量的工程實現等連接器現有計算引擎Apache火花,TensorFlow PyTorch,可以挑戰數據團隊使用各種數據計算引擎。工程挑戰可以加劇了非結構化數據,因為這些係統通常是優化了傳統的結構化數據類型。最後,也是最令人震驚的,專有的元數據服務將顧客鎖定到某種特定的服務提供者,讓客戶應對持續高油價和昂貴,耗時遷移以後如果他們決定采用一種新beplay体育app下载地址方法。

Lakehouse

三角洲湖,一個開源酸表存儲層雲之上對象存儲,我們試圖建立一個汽車而不是更快的馬不是一個更好的數據存儲,但一個基本的變化如何通過lakehouse數據存儲和使用。lakehouse是一種新模式,它結合了最好的湖泊和數據倉庫的數據元素。Lakehouses啟用了一個新的係統設計:實現類似的數據結構和數據管理功能在數據倉庫中,直接在低成本存儲用於數據的湖泊。他們是什麼你會得到如果你不得不重新設計存儲引擎在現代世界,現在,廉價和高可靠的存儲(以對象的形式存儲)是可用的。

三角洲湖維護信息哪些對象是三角洲的一部分表以酸的方式,使用寫前日誌,壓實成拚花,這也是雲存儲在對象存儲。這種設計允許客戶機更新多個對象,替換對象與另一個的子集,等等,在一個可序列化的方式仍然達到高並行讀/寫性能的對象。日誌還提供了顯著加快大型表格數據集的元數據操作。此外,三角洲湖提供高級功能像時間旅行(即查詢時間點快照或回滾錯誤更新),自動數據布局優化、插入、緩存和審計日誌。在一起,這些特性提高處理數據的可管理性和性能在雲對象存儲,最終打開大門lakehouse範式,結合了數據倉庫和數據的關鍵特性湖泊創造一個更好的,更簡單的數據架構。

今天,三角洲湖跨成千上萬的磚使用客戶,每天處理eb的結構化和非結構化數據,以及許多組織在開源社區。beplay体育app下载地址這些用例跨各種數據源和應用程序。存儲的數據類型包括變化數據捕獲(CDC)從企業OLTP係統日誌,應用程序日誌、時間序列數據,圖表,總表報告,為機器學習和圖像或特征數據。應用包括SQL工作負載(最常見),商業智能,流媒體,數據科學、機器學習和圖像分析。總的來說,三角洲湖已被證明是適合大多數數據湖的應用程序會使用結構化存儲格式,如鑲花或者獸人,和許多傳統數據倉庫的工作負載。

在這些用例,我們發現客戶經常使用三角洲湖顯著簡化他們的數據架構通過運行更直接beplay体育app下载地址針對雲對象存儲工作負載,越來越多,通過創建一個lakehouse湖數據和事務特性代替部分或全部功能提供的消息隊列(例如Apache卡夫卡),數據湖泊,或雲數據倉庫(如雪花,亞馬遜紅移)。

在研究論文,作者解釋:

對象存儲的特點和挑戰
三角洲湖存儲格式和訪問協議
當前的功能、利益和三角洲湖的局限性
核心和專門的用例通常使用
性能實驗,包括TPC-DS性能

通過本文,您將更好地了解三角洲湖以及它如何使各種DBMS-like性能和數據在低成本的雲存儲管理功能。以及如何三角洲湖存儲格式和訪問協議使其操作簡單,高可用性,能夠提供高帶寬訪問對象存儲。

下載研究論文

免費試著磚

開始

看到所有公司博客上的帖子