為什麼雲湖為中心的數據倉庫的未來

通過Parth Vakil和佛朗哥Patano

2020年11月3日在產品

分享這篇文章

得到一個O ' reilly的新電子書的早期預覽一步一步的指導你需要開始使用三角洲湖。

在第一個兩個博客,我們想談談為什麼一個組織可能想看看lakehouse架構(基於三角洲湖)的數據分析管道而不是提升的標準模式,將企業數據倉庫(倉庫)on-prem或在雲中。第二個我們將遵循這一情況詳細博客如何使這樣一個過渡。

企業數據倉庫

企業數據倉庫已經在組織中經受住了時間的考驗。他們提供巨大的業務價值。企業需要數據驅動和想要收集的數據和倉庫的見解被證明工作馬這樣做。

然而,隨著時間的了,有幾個問題確認的企業級數據倉庫的體係結構。一般來說這些問題可以歸結為四個大數據的特點,通常被稱為“四對”或體積,速度,品種,和真實性問題遺留的架構。以下原因進一步說明基於企業級數據倉庫的架構的局限性:

遺產,對於架構:隨著時間的推移,建築師和工程師已經狡詐與性能數據庫技術,並轉向數據倉庫作為一個完整的數據的策略。壓力讓創意與現有工具,數據庫被用來解決更複雜的解決方案,它不是最初的打算。這引起了反模式從on-prem擴散到雲。通常,當這些工作負載遷移,雲成本上升——從基礎設施、資源管理和實現所需的時間獲得價值。這使得每個人都質疑這個“雲”策略。
各種各樣的數據:管理結構化數據的好日子已經一去不複返了。今天,數據管理策略必須考慮到半結構化文本、JSON和XML文檔,以及非結構化數據,音頻、視頻和二進製文件。當決定在雲技術,你必須考慮一個平台,能夠處理所有類型的數據,而不僅僅是結構化數據提要的月度報告。Beplay体育安卓版本
速度的數據:數據倉庫提供了一個範式轉變,我們將ETL處理在一夜之間發生,我們的業務總量計算,和業務合作夥伴將有新的數據早上的第一件事。企業的需求和需求快速增加。在這種情況下,符合日常負載成為執行風險。必須有一個總是更新數據存儲分析,人工智能和決策。
數據科學:起初二級公民在孤立的數據昨天的生態係統,組織現在發現他們需要為數據科學家去做他們做的最好的。數據科學家需要訪問盡可能多的數據。訓練模型的重要組成部分是選擇最有預測力的從原始數據字段,這並不總是出現在數據倉庫。數據科學家不能確定哪些數據中包含倉庫沒有首先分析它。
越來越多的數據:鑒於今天的變化率業務操作,我們需要更多的修改數據模型,和改變數據倉庫可以變得昂貴。另外,使用數據集市,提取表,和桌麵數據庫都有斷裂的生態係統在現代企業的數據,導致骨折的業務視圖。進一步,這個模型需要容量規劃看起來6個月或更長時間。在雲中,這種設計原理轉化為巨大的成本。
每列成本:在傳統的企業級數據倉庫的世界,產生所需的協調和規劃一個新列模式中是十分可觀的。這兩件事——影響成本和失去的時間價值(即決策時被列不可用)。一個組織應該看雲數據湖的靈活性顯著降低這個成本(和時間)導致快想要的結果。
ETL vs英語教學:在一個on-prem世界你要麼支付ETL服務器空閑的一天;或者你要小心在調度對BI工作負載在數據倉庫中英語教學工作。在雲裏你有一個選擇——遵循相同的趨勢(即在數據倉庫中進行英語教學和BI)或切換到ETL。ETL的雲你隻支付當你轉換運行的基礎設施。,你應該支付更低的價格來執行這些轉換。這種工作負載還允許高效的分割計算來支持高吞吐量和流數據。總的來說,ETL在雲組織可以提供巨大的成本和性能優勢。

圖1:典型的流在倉庫世界和它的局限性

所以,真的,由於這些挑戰,倉庫社區的需求變得清晰:

必須攝取所有數據,即結構化、半結構化和非結構化
必須攝取所有的數據速率,即每月、每周、每天、每小時、甚至每一秒(即流),而進化模式和防止昂貴,耗時修改嗎
必須攝取所有數據,這是指整個體積的數據
必須攝取所有的數據可靠——失敗的工作不應該破壞數據流下遊嗎
是不夠的隻是這些數據用於BI。企業希望利用這些數據對競爭的優勢,並預測,不要問“發生了什麼”,但也“將會發生什麼”
必須分段計算智能地實現結果與最優的成本,而不是提供的“以防”情況。
做所有這一切而消除數據的副本,複製問題,版本控製問題,可能治理問題

簡而言之——體係結構必須支持所有速度,種類和數量的數據,使商業智能和科學以最優的成本生產級數據。

現在,如果我們開始談論雲數據湖架構一個重要的事情,這帶給組織非常便宜的表存儲。當你想到Azure Blob或Azure數據代湖以及AWS S3,可以存儲TB量級數據幾美元。這使組織充滿感激之情,分析儀器的磁盤存儲成本好幾倍。但是,這隻會發生,如果組織利用分離計算從存儲。通過這我們意味著數據必須堅持分開你的計算基礎設施。名義上,在AWS,您的數據將駐留在S3(或代/ Blob ADLS Azure)當你計算將自旋向上和在需要時。

考慮到這一點,讓我們看看湖現代雲數據體係結構的體係結構

你所有的數據源可以在這些廉價的對象存儲在你喜歡雲是否結構化、非結構化或半結構化的
現在,你構建一個策劃數據湖上的原始數據就降落在存儲層
這個策劃數據湖之上,構建探索性數據科學、生產毫升以及SQL / BI

策劃數據湖,我們想要關注的事情,一個組織必須考慮建築這一層避免過去的缺陷數據的湖泊。在那些有一個強大的“垃圾在垃圾”的概念。的一個關鍵原因屬性數據中湖泊的過去是因為數據的可靠性。數據可以用錯誤的模式,土地可以損壞等,它會吸收進入湖的數據。隻後,當數據查詢問題真的出現。所以考慮可靠性是一個重要的需求。

當然,另一個問題是性能。我們可以玩很多的把戲使數據可靠,但它永遠沒有好如果一個簡單的查詢返回。

然而另一個問題是,作為一個組織,你可能會開始考慮數據的管理水平。您可能有一個原始層、精製層和BI層。一般來說,原始層是你的輸入數據,模式執行的精製層實施要求和可靠性檢查和BI層清潔數據聚合可以構建了儀表板的高管。我們還需要考慮這些層之間移動的過程簡單化。

我們也想把計算和存儲分開,我們想做這個的原因是雲計算的成本可以給組織帶來嚴重影響。要存儲在對象存儲給你一個便宜的持久層。把你計算的數據隻隻要你需要它,然後把它關掉。為例,提出了一個非常大的集群對數據執行ETL過程後幾分鍾,把它關掉。在查詢方麵,你可以保持你所有的數據都回去S3和彈出一個小集群上幾十年在過去的幾年裏你隻需要查詢。這種靈活性是至關重要的。這真的意味著什麼可靠性和性能我們討論需要固有屬性的數據存儲。

圖3:一朵雲策劃數據架構湖

說我們有一個數據格式策劃數據層湖給我們固有可靠性和性能屬性加上這一事實數據保持完全組織的控製下,你現在需要一個查詢引擎,允許您訪問這個格式。我們認為這裏的選擇,至少就目前而言,是Apache的火花。Apache火花是戰鬥測試,支持ETL、流媒體、SQL和ML的工作負載。

這數據格式,從磚的角度來看,是三角洲湖。三角洲湖一個開源格式由Linux基金會。你也會聽到別人——Apache Hudi和冰山。他們正試圖解決所需的可靠性屬性數據湖。然而,最大的區別是,在這一點上,三角洲湖流程每月2.5 eb。是一場測試數據格式的湖在財富500強企業和雲數據在所有垂直從金融服務、廣告技術,汽車和公共部門。

三角洲湖加上火花給你能力湖之間輕鬆地移動數據管理階段。事實上,你可以逐步攝取在原始輸入數據層和保證看到它通過轉換階段一直到BI層酸擔保。

我們在磚意識到這是視覺上的很多組織正在尋求實現。所以,當你看磚作為一個統一的數據分析平台,你看到的是:Beplay体育安卓版本

一個開放、統一數據服務——我們的最初創造者幾個開源項目,包括Apache火花,MLflow,三角洲湖。他們的能力深深融入我們的產品。
我們迎合數據科學家通過協作工作空間環境。beplay娱乐ios
我們啟用和,事實上,加速productionizing毫升的進程通過一個端到端的毫升工作流來訓練,部署和管理模型。
在SQL / BI方麵,我們提供了一個原生SQL接口使數據分析師使用熟悉的界麵直接查詢數據湖。我們也和流行沒有代碼優化的數據連接湖BI工具像畫麵。

圖5:一個磚湖雲數據中心策劃解決方案

接下來是什麼

我們將關注這個博客為什麼你應該考慮一個數據你看現代化的雲湖的博客。我們將關注特定方麵認為,知道你東方湖從傳統的數據倉庫數據。

免費試著磚

開始

看到所有產品的帖子