跳轉到主要內容
人工智能的數據

Lakehouse進化數據

2021年5月19日, 數據策略

分享這篇文章

這是一個客人在森林邊緣數據團隊撰寫文章的技術。我們感謝Bill Inmon, CEO,瑪麗·萊文,數據策略總監,森林邊緣技術的貢獻。

深入研究數據的進化Lakehouse &閱讀數據Lakehouse上升通過數據倉庫的父親,Bill Inmon。

原始數據的挑戰

隨著應用程序的數據完整性的問題。大量應用程序的出現的問題是,相同的數據出現在許多地方與不同的值。為了做出決定,用戶必須找到哪個版本的數據是正確的使用在許多應用程序中。如果用戶沒有發現和使用正確的版本的數據,可能會做出錯誤的決定。

不同體係結構的方法是需要找到正確的數據用於決策。

人們發現,他們需要一個不同的體係結構方法來找到正確的數據用於決策。因此,數據倉庫誕生了。

數據倉庫

數據倉庫導致完全不同的應用程序數據被放置在一個單獨的物理位置。設計師必須圍繞數據倉庫構建一個全新的基礎設施。

傳統的分析數據倉庫周圍的基礎設施

圍繞數據倉庫的分析基礎設施包含諸如:

  • 元數據——數據是什麼地方的指南
  • 一個數據模型的抽象數據在數據倉庫中找到
  • 數據沿襲的故事起源和轉換的數據倉庫
  • 總結——的描述算法旨在創建數據工作
  • kpi——關鍵績效指標在哪裏發現
  • ETL啟用應用程序數據轉換成企業數據

數據倉庫的局限性成為明顯的增加各種數據(文本、物聯網、圖像、音頻、視頻等)的企業。此外,機器學習(ML)的興起和AI引入迭代算法,需要直接的數據訪問和沒有基於SQL。

公司的所有數據

重要的和有用的數據倉庫,在大多數情況下,數據倉庫集中在結構化數據。但是現在有許多其他數據類型的公司。為了看看數據駐留在一個公司,考慮一個簡單的圖:

結構化數據通常是基於事務的數據是由一個組織開展日常業務活動。文本數據是數據所生成的信件、電子郵件和談話發生在公司內部。其他非結構化數據是有其他來源的數據,如物聯網數據、圖像、視頻和analog-based數據。

數據的湖

數據湖是一個融合的所有不同類型的數據中發現的公司。它已成為企業的地方出售他們所有的數據,鑒於其低成本與文件存儲係統API,通用的,打開的文件格式的數據,例如Apache拚花和獸人。使用開放格式也使得湖數據直接訪問一個廣泛的其他分析引擎,如機器學習係統。

數據湖是一個融合的所有不同類型的數據中發現的公司

當數據湖是第一次懷了胎,就被認為是必需的,數據應該提取並放置在湖的數據。一旦數據中湖,最終用戶可以潛水,發現數據做分析。然而,公司很快發現,使用數據中的數據湖是一個完全不同的故事不僅僅是數據放置在湖裏。

許多數據的承諾湖泊沒有意識到由於缺少一些關鍵功能:不支持事務,沒有執行數據質量和治理和可憐的性能優化。因此,大多數的數據在企業已經成為湖泊數據沼澤

挑戰與當前數據架構

由於湖泊和倉庫數據的局限性,一個常見的方法是使用多個係統——數據湖,幾個數據倉庫和其他專業係統,導致三個常見的問題:

1。缺乏開放:數據倉庫數據鎖定在專有格式,增加的成本數據或工作負載遷移到其他係統。考慮到數據倉庫主要提供SQL-only訪問,很難運行任何其他分析引擎,如機器學習係統。此外,它是非常昂貴和緩慢直接訪問數據倉庫與SQL,使集成與其他技術困難。

2。有限的支持機器學習:盡管許多研究毫升和數據管理的融合,沒有領先的機器學習係統,如TensorFlow PyTorch XGBoost,做好倉庫。與BI提取少量的數據,毫升係統處理大型數據集使用複雜的非sql代碼。這些用例,倉庫供應商推薦導出數據文件,進而增加複雜性和過時。

3所示。迫使湖泊和數據倉庫之間的權衡:超過90%的企業數據存儲在數據湖泊從開放直接訪問文件由於其靈活性和低成本,它使用廉價的存儲。克服缺乏數據的性能和質量問題的湖,企業etl的一小部分數據湖下遊數據倉庫中的數據最重要的決策支持和BI應用程序。這種雙重係統架構需要連續工程ETL數據之間的湖和倉庫。每個ETL步驟風險導致失敗或引入bug,減少數據質量,同時保持數據湖和倉庫一致是困難和昂貴的。除了支付連續ETL,用戶支付兩數據複製到倉庫的倉儲成本。

lakehouse出現的數據

我們看到出現的一個新類的數據架構數據lakehouse,這是通過一個新的開放和標準化係統設計:實現類似的數據結構和數據管理功能在數據倉庫中,直接在低成本存儲用於數據的湖泊。

數據lakehouse架構解決了當前數據架構的關鍵挑戰

數據lakehouse架構地址當前數據架構的關鍵挑戰在前一節中討論的:

  • 使開放直接訪問使用開放格式,比如Apache拚花
  • 提供本地類支持數據科學和機器學習
  • 在低成本存儲提供最佳的性能和可靠性

這裏有各種功能,使lakehouse架構的主要優點:

開放:

  • 打開的文件格式:建立在開放和標準化文件格式,例如Apache拚花和獸人
  • 開放API:提供了一個開放的API,可以有效地直接訪問數據而不需要專有的引擎和廠商鎖定
  • 語言支持:不僅支持SQL訪問,還有各種各樣的其他工具和引擎,包括機器學習和Python / R庫

機器學習支持:

  • 支持不同的數據類型:存儲、細化分析和許多新的應用程序訪問數據,包括圖像、視頻、音頻、半結構化數據和文本。
  • 有效的非sql直接讀取:直接有效的訪問大量數據的使用R和Python庫運行機器學習實驗。
  • 支持DataFrame API:內置聲明DataFrame與查詢優化數據訪問API毫升毫升係統,如TensorFlow以來工作負載,PyTorch和XGBoost DataFrames作為主要采用抽象操縱數據。
  • 毫升實驗數據版本控製:提供的快照數據啟用數據科學和機器學習團隊訪問和恢複到早期版本的數據審計和回滾或複製毫升實驗。

以低成本最佳性能和可靠性:

  • 性能優化:使各種優化技術,如緩存,多維聚簇和數據跳過,利用文件統計和數據壓縮調整文件。
  • 模式執行和治理:喜歡明星/雪花模式支持DW模式體係結構,並提供健壯的治理和審計機製。
  • 事務支持:同時利用ACID事務,以確保一致性作為多個政黨讀或寫數據,通常使用SQL。
  • 低成本的存儲:Lakehouse架構使用Amazon S3等低成本對象存儲Azure Blob存儲或穀歌雲存儲。

比較數據倉庫和數據與數據lakehouse湖

數據倉庫 數據湖 數據lakehouse
數據格式 關閉,專有格式 開放格式 開放格式
類型的數據 有限的結構化數據,支持半結構化數據 所有類型:結構化數據、半結構化數據、文本數據、非結構化(生的)數據 所有類型:結構化數據、半結構化數據、文本數據、非結構化(生的)數據
數據訪問 SQL-only,沒有直接訪問文件 開放api直接訪問文件和SQL, R, Python和其他語言 開放api直接訪問文件和SQL, R, Python和其他語言
可靠性 高品質,可靠的數據與ACID事務 低質量數據沼澤 高品質,可靠的數據與ACID事務
治理和安全 細粒度的安全性和治理行/柱狀水平表 可憐的治理作為安全需要應用到文件 細粒度的安全性和治理行/柱狀水平表
性能
可伸縮性 擴展成為指數更加昂貴 尺度持有任何以低成本的數據量,無論類型 尺度持有任何以低成本的數據量,無論類型
用例支持 限於BI、SQL應用程序和決策支持 限於機器學習 一個數據BI架構,SQL和機器學習

lakehouse的影響

我們相信數據lakehouse架構提供了一個機會與我們看到的在早期的數據倉庫市場。lakehouse的獨特的能力來管理數據在一個開放的環境中,混合所有品種的數據來自企業的各個組成部分和把數據的數據科學重點湖與最終用戶分析數據倉庫會釋放令人難以置信的價值的組織。


構建數據Lakehouse。
探索下一代的數據架構和數據倉庫的父親,Bill Inmon。

想了解更多嗎?加入數據+人工智能峰會,全球事件的數據社區,Bill Inmon和磚的爐邊談話阿裏Ghodsi聯合創始人和首席執行官。這個免費的虛擬事件特征數據+人工智能有遠見,思想領袖和專家——查看完整的演講者陣容在這裏

森林邊緣技術是由Bill Inmon和是世界領導人在將文本非結構化數據轉換為結構化數據庫進行更深入的見解和有意義的決策。

免費試著磚

相關的帖子

看到所有數據策略的帖子
Baidu
map