Lakehouse的崛起
與數據的快速進化湖,比利博斯沃思和阿裏Ghodsi分享彼此的想法的五大常見問題被問到關於數據倉庫,數據lakehouses和湖泊。來自不同的背景,他們每個人都為這一市場提供獨特而有價值的見解。阿裏已經花了十多年的前沿研究分布式數據管理係統;加州大學伯克利分校的副教授;現在的聯合創始人兼首席執行官數據磚。比利已經花了30年的數據作為一個開發者,數據庫管理員和作者;曾擔任首席執行官和高級主管軟件公司專門從事數據庫;在上市公司董事會任職,目前Dremio的首席執行官。
與數據湖泊出現了什麼問題?
阿裏Ghodsi
讓我們先從一個好事之前的問題。他們使企業捕獲所有他們的數據-視頻/音頻/日誌——不僅僅是關係數據,他們這樣做,在一個廉價的和開放的方式。今天,多虧了這一點,絕大多數的數據,特別是在雲中,在數據湖泊。因為他們是基於開放格式和標準(例如拚花和獸人),還有一個巨大的生態係統的工具,通常開源(例如Tensorflow, Pytorch),可直接作用於這些數據湖泊。但在某種程度上,隻是為了收集數據收集不是很有用,沒有人關心你收集多少pb,但你做了什麼生意?你提供什麼業務價值?
結果很難提供業務價值,因為數據沼澤湖泊經常成為數據。這主要是由於三個因素。首先,很難保證數據的質量是好,因為數據隻是甩了進去。第二,很難管理,因為它是一個文件存儲,和推理關於數據安全是困難的如果你唯一看到的文件。第三,很難得到性能,因為數據布局可能不是組織的性能,例如,數以百萬計的微小comma-separated-files (csv)。
比利博斯沃思
所有技術進化,而不是思考“什麼錯”我認為這是更有用的理解就像第一個迭代。首先,單詞之間有高度的相關性湖“數據”和“Hadoop。協會“這是可以理解的,但現在的能力可以在數據架構湖更先進、更容易比我們看到的on-prem Hadoop生態係統。第二,數據湖泊變得像沼澤,數據隻是坐在和積累對業務沒有提供真正的洞察力。我認為這是由於過於複雜的本地生態係統不正確的技術無縫和快速讓消費者得到的數據洞察力他們需要直接從數據在湖裏。最後,任何新技術一樣,它缺乏一些成熟健壯的治理和安全等方麵的數據庫。發生了很多變化,尤其是在過去的幾年裏,但這些似乎是早期的一些常見問題。
你認為最大的變化在過去幾年來克服這些挑戰?
比利
事實上的上遊架構決定是真正得到了球滾動。在過去的幾年裏,應用程序開發人員隻是最簡單的路徑存儲大型數據集,這是拋售他們在雲存儲。便宜,可伸縮,非常容易使用,雲存儲成為人們土地的默認選擇雲級別的數據網絡和物聯網的應用程序。數據的大量積累推動了創新是必要的,以直接訪問數據,這生活與試圖跟上傳統數據庫副本。今天,我們有一組豐富的功能交付的事情以前隻能在關係數據倉庫。
阿裏
大技術突破是在2017年,當時三個項目同時啟用建築warehousing-like功能直接在數據:湖三角洲湖,Hudi和冰山。他們把結構、可靠性和性能湖泊坐在這些大規模數據集數據。開始支持ACID事務,但很快超越,與性能、索引、安全等等。這個突破是如此深刻,它發表在頂級學術會議(VLDB, CIDR等等)。
為什麼要使用另一個新術語,“Lakehouse”來描述數據的湖泊?
阿裏
因為它們是完全不同的從數據湖泊,認股權證不同的術語。湖泊往往成為數據沼澤的三個原因我之前提到的,所以我們不希望鼓勵更多的,作為企業的還不是很好。新學期也讓我們有機會引導這些企業土地數據策略,可以提供更多的商業價值,而不是重複過去的錯誤。
比利
如果你看看像維爾納•沃格爾博客從2020年1月強調開放數據湖的巨大優勢和功能架構,你看到一個巨大的進化從如何數據甚至湖泊被認為僅僅幾年前。主要適用於數據分析用例隻認為是可能的在數據倉庫。因此,術語“Lakehouse”帶來的新內涵,當前世界開放數據架構,允許新的協會豐富的數據分析功能。當底層技術大幅進化,新創建的名字往往代表新功能。這就是我認為我們看到的術語“Lakehouse。”
為什麼考慮Lakehouses嗎?為什麼不繼續使用數據倉庫?
比利
今天的數據問題隻是有點不同於過去,他們是根本,絕對不同。在許多問題上與數據倉庫是時間。不是時間運行一個查詢,但是所花費的時間數據團隊獲取數據的數據倉庫使用ETL作業的迷宮。這個高度複雜的數據移動和複製鏈引入了繁重的變更管理(“簡單”改變儀表板絕非簡單),增加了數據治理風險,最終減少數據可供分析的範圍,因為子集會創建與每個副本。
我經常聽到人們談論“簡單”的數據倉庫。縮小一點,你總能找到令人目眩的相互連接的網絡數據複製和移動工作。這不是簡單的。問題是,為什麼要通過複製和移動如果你沒有?在一個Lakehouse設計原則是,一旦點擊數據存儲、湖那是它停留的地方。湖和數據已經達到數據存儲、分析團隊之前也不願透露太多。為什麼?因為我之前說的,開發人員現在使用它作為事實上的目的地數據尾氣。一旦它的存在,為什麼把它別的地方嗎?Lakehouse,你不需要。
阿裏
最重要的原因是機器學習和人工智能,這是非常對大多數企業戰略。數據倉庫不支持稀疏數據集ML / AI用途,如視頻、音頻和任意文本。此外,與他們交流的唯一方法是通過SQL,這對許多目的是驚人的,但不是ML /人工智能。今天,一個巨大的開放的生態係統軟件是建立在Python, SQL是不夠的。今天最後,絕大多數的數據存儲在數據湖泊,所以遷移到數據倉庫的成本幾乎是不可能的,。
除了消除數據拷貝,你個人認為Lakehouse的最大優點是什麼?
阿裏
直接對ML /人工智能的支持。這是冰球。穀歌不會在今天如果不是人工智能或毫升。這同樣適用於Facebook, Twitter,乳房,等軟件正在吞噬這個世界,但AI會吃所有的軟件。本地Lakehouses可以支持這些工作負載。如果我可以提一個以上的優勢,我認為已經有大規模數據集數據湖泊、和Lakehouse範式使利用這些數據。簡而言之,它讓你清理你的數據沼澤。
比利
我花了我的整個職業生涯與數據庫,以及幾乎所有的操作。我最近搬更多的數據分析的世界,坦率地說,我覺得我是在一個時間機器當我看到數據倉庫模型仍然被使用。世界在操作方麵,架構早已從大、整體服務。采用這些基於服務的體係結構是完整的,它幾乎不值得一提。然而,當你看一個數據warehouse-centric架構,就像看著一個從2000年應用程序體係結構。基於服務的體係結構的所有優點適用於分析世界就像他們所做的操作。Lakehouse旨在使您的數據可訪問任意數量的服務你希望,開放格式。真正關鍵的今天和未來。基於模塊化、最佳服務架構已被證明是卓越的運營工作負載。Lakehouse架構允許分析世界迅速趕上。
實現Lakehouse意味著“撕裂和替換”數據倉庫嗎?
比利
也許最好的關於實現Lakehouse架構可能是您的應用程序團隊已經開始了旅程。公司數據集已經可用,可以很容易地開始實施Lakehouse架構。解除從數據倉庫是沒有必要的。最成功的客戶實現我們看到的從單個用例開始,成功地實現它,然後問“我們其他用例應該實現直接在Lakehouse而不是複製數據在數據倉庫中?”
阿裏
不,它不。我們還沒見過有人這麼做。相反,數據倉庫成為Lakehouse的下遊應用,就像許多其他的事情。你的原始數據落在湖的數據。Lakehouse允許您牧師到精煉數據集模式和治理。的子集,然後可以進入數據倉庫。每個人都是這樣開始的,但隨著用例Lakehouse獲得更多的成功,幾乎所有的企業我們最終與越來越多的直接工作負載Lakehouse移動。