Lakehouse常見問題的數據

通過邁克爾時常要,Bharath高達,Arsalan Tavakoli-Shiraji,雷諾鑫,馬泰Zaharia和阿裏Ghodsi

2021年8月30日在Beplay体育安卓版本平台的博客

分享這篇文章

問題指數

什麼是數據Lakehouse ?
湖是什麼數據?
什麼是數據倉庫?
如何從數據倉庫數據Lakehouse不同嗎?
湖Lakehouse數據從數據有什麼不同?
有多容易,數據分析師Lakehouse使用數據?
數據Lakehouse係統在性能和成本如何比較數據倉庫嗎?
數據Lakehouse係統支持數據治理功能做什麼?
Lakehouse數據必須集中或它可以分散到數據網格嗎?
數據網格與數據Lakehouse如何?

什麼是數據Lakehouse ?

簡而言之,數據Lakehouse是一個架構,實現高效、安全的人工智能(AI)和商業智能(BI)直接在大量的數據存儲在數據湖泊。

探索為什麼lakehouses未來的數據架構與數據倉庫的父親,Bill Inmon。

今天,絕大多數的企業數據的土地數據的湖泊低成本的存儲係統,可以管理任何類型的數據(結構化或非結構化)和有一個開放的接口,任何處理工具可以運行。這些數據湖泊是大多數數據轉換和高級分析工作負載(如AI)運行完整的利用數據的組織。另外,對於商業智能(BI)的用例,使用專有數據倉庫係統在一個更小的子集的數據結構。這些數據倉庫主要支持BI,回答曆史分析過去使用SQL問題(例如,我的收入是什麼最後一個季度),盡管數據存儲更大的湖和支持的數據量分析使用SQL和非SQL接口,包括預測分析和人工智能(例如,客戶可能會流失,或者優惠券什麼時候提供給我客戶)。beplay体育app下载地址曆史上,完成人工智能和BI,你必須有多個副本的數據和湖泊和數據倉庫之間移動數據。

數據Lakehouse使你所有的數據存儲在一個數據湖和AI和BI數據直接。它具有特定的功能有效地使AI和BI在所有企業的超大規模的數據。即它的SQL和性能(索引、緩存、MPP處理)BI工作快速數據湖泊。它還直接文件訪問和直接本地支持Python,數據科學和人工智能框架沒有迫使它通過一個基於sql的數據倉庫。關鍵技術用於實現數據Lakehouses是開源的,如三角洲湖Hudi,冰山一角。供應商關注數據Lakehouses包括,但不限於磚,AWS, Dremio和亮光。供應商提供數據倉庫包括,但不限於,Teradata,雪花,甲骨文。

最近,Bill Inmon,被廣泛認為是數據倉庫的父親,發表的一篇博客文章Lakehouse進化的數據解釋lakehouse的獨特的能力來管理數據在一個開放的環境,同時結合數據的數據科學重點湖的終端用戶分析數據倉庫。

湖是什麼數據?

數據湖是一種低成本的、開放、持久存儲係統對於任何數據類型——表格數據、文本、圖像、音頻、視頻、JSON和CSV。在雲中,每個主要的雲提供商利用,促進數據湖,例如AWS S3, Azure湖數據存儲(ADLS),穀歌雲存儲(GCS)。因此,絕大多數的大多數組織的數據存儲在雲數據湖泊。隨著時間的推移,大多數組織將它們的數據存儲在一個開放的標準化格式,通常Apache拚花格式或者獸人格式。因此,一個大的生態係統的工具和應用程序可以直接使用這些開放的數據格式。這種方法的開放格式存儲數據,以非常低的成本使得組織能夠積累大量的數據在數據湖泊,同時避免廠商鎖定。同時,數據從三個主要湖泊遭受問題——安全、質量和性能,盡管這些優勢。因為所有的數據存儲和管理文件,它不提供細粒度的訪問控製文件的內容,但隻有粗粒度訪問控製誰可以訪問文件或目錄。查詢性能很差,因為快速訪問的格式不優化,計算昂貴和清單文件。總之,組織最終將數據移動到其他係統使用數據,除非應用程序可以容忍噪聲(即機器學習)。 Finally, quality is a challenge because it's hard to prevent data corruption and manage schema changes as more and more data gets ingested to the data lake. Similarly, it is challenging to ensure atomic operations when writing a group of files, and no mechanism to roll back changes. As a result, many argue that most data lakes end up becoming data "swamps". . Consequently, most organizations move subsets of this data into Data Warehouses, which do not have these three problems, but suffer from other problems.

什麼是數據倉庫?

數據倉庫是用來存儲和管理的專有係統結構化或半結構化的(主要是JSON格式)基於sql的數據分析和商業智能。最有價值的商業策劃,並上傳至數據倉庫數據,優化了高性能、並發性、和可靠性但成本更高,因為任何數據處理需要更昂貴的SQL利率而不是廉價的數據訪問湖率。在曆史上,數據倉庫容量約束和不支持同時ETL和BI查詢;更不用說實時流。數據倉庫主要是為結構化數據以來,他們不支持非結構化數據,如圖像、傳感器數據,文件,視頻等等。他們對機器學習的支持有限,不能直接支持流行的開源庫和工具(TensorFlow、PyTorch和其他基於python庫)本身。因此,大多數組織最終讓這些數據集在數據湖,快速移動到數據倉庫的子集並發BI和SQL的用例

如何從數據倉庫數據Lakehouse不同嗎嗎?

lakehouse構建現有數據湖泊之上,它通常包含超過90%的企業數據。雖然大多數數據倉庫支持“外部表”功能來訪問這些數據,他們有嚴重的功能限製(例如,隻支持讀取操作)和性能限製時這樣做。Lakehouse將傳統數據倉庫功能添加到現有的數據而不是湖泊,包括ACID事務、細粒度的數據安全、低成本的更新和刪除,一流的SQL支持,優化SQL查詢的性能,和BI報告風格。通過構建數據湖之上,Lakehouse存儲和管理所有現有數據在數據湖,包括所有種類的數據,如文本、音頻和視頻,除了結構化數據表。Lakehouse本身也支持數據科學和機器學習用例通過提供直接訪問數據使用開放api,支持各種毫升和Python / R庫,如PyTorch Tensorflow或XGBoost,與數據倉庫。因此,Lakehouse提供了一個係統來管理企業的所有數據同時支持分析的範圍從BI和人工智能。

另一方麵,數據倉庫是專有數據係統專用的基於sql的結構化數據分析,和某些類型的半結構化數據。數據倉庫支持機器學習和有限無法支持本機運行流行的開源工具,而不首先導出數據(通過ODBC / JDBC或數據湖)。今天,沒有一個數據倉庫係統原生支持所有現有的音頻、圖像和視頻數據已經存儲在數據湖泊。

湖Lakehouse數據從數據有什麼不同?

最常見的投訴數據湖泊沼澤,他們可以成為數據。任何人都可以把任何數據到一個湖的數據;沒有結構或治理湖泊中的數據。性能差,數據組織與性能,導致湖泊有限的分析數據。因此,大多數組織使用數據湖泊作為大部分的著陸區數據由於底層湖泊使用低成本對象存儲數據,然後將數據等不同的下遊係統數據倉庫中提取價值。

Lakehouse處理數據的基本問題,使數據沼澤湖泊。它增加了ACID事務,以確保一致性作為多個政黨同時讀或寫數據。它支持DW模式架構如星形雪花模式並提供健壯的治理和審計機製直接在數據湖。它還利用了各種性能優化技術,如緩存,多維聚簇,使用文件統計和數據壓縮和數據跳過,調整文件啟用快速分析。它添加了細粒度的安全性和審計能力數據治理。通過增加數據管理和性能優化開放數據湖,lakehouse可以本地支持BI和ML的應用程序。

有多容易,數據分析師Lakehouse使用數據?

數據lakehouse係統實現相同的SQL接口作為傳統的數據倉庫,所以分析師可以連接到他們現有的BI和SQL工具不改變他們的工作流。例如,領先的BI產品,如畫麵,PowerBI, Qlik,和美人都可以連接到數據lakehouse係統,數據工程工具像Fivetran和印度生物技術部可以運行,和分析師可以導出數據到桌麵工具,如Microsoft Excel。Lakehouse支持ANSI SQL,細粒度訪問控製,ACID事務使管理員能夠管理它們以同樣的方式作為數據倉庫係統但覆蓋所有數據在他們的組織在一個係統中。

Lakehouse係統簡單的一個重要優點是管理組織中的所有數據,因此數據分析師可以授予訪問原始處理和曆史數據到達,而不是隻有子集的數據加載到數據倉庫係統。分析師因此容易提問跨多個曆史數據集或建立一個新的管道處理一個新的數據集沒有阻塞數據庫管理員或數據工程師加載適當的數據。對AI的內置支持也使得分析師更容易運行AI模型由一個機器學習的團隊在任何數據。

數據Lakehouse係統在性能和成本如何比較數據倉庫嗎?

數據Lakehouse係統是建立在不同,彈性伸縮計算和存儲操作成本最小化和最大化性能。最近係統提供每美元相當甚至更好的性能與傳統數據倉庫對於SQL工作負載,使用相同的優化技術在他們的引擎(例如,查詢編譯和存儲布局優化)。此外,Lakehouse係統通常利用雲提供商節約成本的特性,比如現貨實例定價(需要係統能夠容忍失去工作節點mid-query)和減少價格很少訪問存儲,而傳統的數據倉庫引擎通常不是被設計來支持。

數據Lakehouse係統支持數據治理功能做什麼?

通過添加一個管理界麵上的數據存儲、湖Lakehouse係統提供一個統一的方式來管理訪問控製、數據質量和合規跨組織的所有數據在數據倉庫中使用標準接口類似。現代Lakehouse係統支持細粒度(行、列和視圖層)訪問控製通過SQL查詢審計、基於屬性的訪問控製、數據版本管理、數據質量約束和監控。這些特性通常使用標準接口提供熟悉數據庫管理員(例如SQL格蘭特命令)允許現有的人事管理在一個組織的所有數據以統一的方式。集中所有的數據在一個Lakehouse係統與單一管理界麵還減少行政負擔和潛在的錯誤,伴隨著管理多個單獨的係統。

Lakehouse數據必須集中或它可以分散到數據網格嗎?

不,組織不需要集中在一個Lakehouse他們所有的數據。許多組織使用Lakehouse架構采取分散式的方法來存儲和處理數據,但需要一個集中的方法安全、治理和發現。根據組織結構和業務需求,我們看到一些常見的方法:

每個業務單元構建自己的Lakehouse捕捉其業務的完整視圖,從產品開發到客戶收購客戶服務。
每個功能區,如產品製造、供應鏈、銷售、和營銷,可以建立自己的Lakehouse優化操作在其業務領域。
一些組織也旋轉了一個新的Lakehouse解決跨職能戰略行動如客戶360或意想不到的危機像COVID流行開車快,果斷行動。

的統一本性Lakehouse架構允許數據架構師構建簡單的數據架構,結合業務需求而不複雜編製孤立的數據之間的數據移動堆棧BI和毫升。此外,Lakehouse體係結構的開放性使組織能夠利用開放技術日益增長的生態係統,而不必擔心鎖定解決的獨特需求不同的業務單位或功能區域。因為Lakehouse係統通常建立在分離,可伸縮的雲存儲,它也是簡單而高效,讓每個Lakehouse多個團隊訪問。最近,三角洲分享提出了一個開放和標準的數據共享機製在Lakehouses支持許多不同的供應商。

數據網格與數據Lakehouse如何?

Zhamak Dehghani概述了四種基本的組織原則,體現任何數據網格的實現。數據Lakehouse架構可用於實現這些組織原則:

麵向領域的分散數據所有權和架構:正如在前一節中所討論的,lakehouse架構數據所有權分散的方法。組織可以創建許多不同lakehouses商業團體的個人需求。根據他們的需要,他們可以存儲和管理各種數據——圖片、視頻、文本、結構化表格數據和相關數據資產(如機器學習模型和相關的代碼複製轉換和見解。
數據作為一個產品:lakehouse架構幫助組織管理數據作為一個產品通過提供不同的數據團隊成員在特定領域的團隊完全控製數據的生命周期。數據數據所有者的團隊組成、數據工程師、分析師和數據科學家可以管理數據(結構化、半結構化和非結構化與適當的血統和安全控製),代碼(ETL、數據科學筆記本毫升培訓和部署),和支持基礎設施(存儲、計算集群政策,和各種分析和ML引擎)。Lakehouse平Beplay体育安卓版本台特性如ACID事務、數據版本控製和零拷貝克隆方便這些團隊發布和維護他們的數據作為一個產品。
自助數據基礎設施作為一個平台:Beplay体育安卓版本lakehouse架構提供了一個端到端的數據平台數據管理、數據工程,分析數據的科學,與集成到一個廣泛的生態係統Beplay体育安卓版本和機器學習工具。添加數據管理的現有數據湖泊簡化了數據訪問和共享,任何人都可以請求訪問請求者支付便宜blob存儲和直接的安全訪問。此外,使用開放數據格式和直接文件訪問,數據團隊可以使用最適合的分析對數據和ML框架。
聯合計算治理:治理在lakehouse架構由一個集中的目錄與實現細粒度的訪問控製(行/列級別),這將很容易發現數據和其他構件(如代碼和ML模式。組織可以分配不同的管理員的不同部分目錄數據資產的分散控製和管理。這種混合方法的一個集中的目錄與聯邦控製保存當地的特定領域團隊的獨立性和靈活性,同時保證數據資產重用這些團隊和執行一個共同的安全與全球治理模型。

免費試著磚

開始