Databricks Lakehouse是什麼?

Databricks Lakehouse將數據倉庫的ACID事務和數據治理與數據湖的靈活性和成本效率相結合,實現對所有數據的商業智能(BI)和機器學習(ML)。Databricks Lakehouse以開源數據標準將您的數據保存在可大規模擴展的雲對象存儲中,允許您以任何方式、任何地點使用您的數據。

Databricks湖屋的組件

Databricks湖屋的主要組成部分是:

通過使用三角洲湖,您可以使下遊數據科學家、分析師和機器學習工程師在處理完數據後利用相同的生產數據支持核心ETL工作負載。

Unity Catalog確保你可以完全控製誰可以訪問哪些數據,並提供一個集中的機製來管理所有數據治理和訪問控製,而不需要複製你的數據。

三角洲表

在Databricks上創建的表默認使用Delta Lake協議。當你創建一個新的Delta表時:

  • 用於引用表的元數據被添加到聲明的模式或數據庫中的metastore中。

  • 數據和表元數據保存到雲對象存儲的目錄下。

Delta表的metastore引用在技術上是可選的;可以通過與目錄路徑直接交互來創建增量表火花api.建立在Delta Lake上的一些新特性將在表目錄中存儲額外的元數據,但所有Delta表都有:

  • 包含Parquet文件格式的表數據的目錄。

  • 一個目錄/ _delta_log包含關於JSON和Parquet格式的表版本的元數據。

了解更多關於Databricks Lakehouse中的數據對象

統一目錄

Unity Catalog在Databricks上統一了數據治理和發現。可在筆記本、作業和Databricks SQL中使用,Unity Catalog提供了功能和ui,支持為數據湖和數據倉庫設計的工作負載和用戶。

  • Unity Catalog的帳戶級管理意味著數據庫、數據對象和權限可以跨Databricks工作空間共享。

  • 您可以利用三層名稱空間(<目錄>。<數據庫>。<表>)以組織及授權查閱資料。

  • 外部位置和存儲憑據也是具有類似於其他數據對象的ACL設置的安全對象。

  • 數據瀏覽提供一個圖形用戶界麵來瀏覽數據庫和管理權限。

數據湖屋、數據倉庫、數據湖

數據倉庫為商業智能(BI)決策提供了大約30年的動力,已經演變為控製數據流的係統的一套設計指南。數據倉庫優化BI報告的查詢,但是生成結果可能需要幾分鍾甚至幾小時的時間。為不太可能隨高頻變化的數據而設計的數據倉庫試圖防止並發運行的查詢之間的衝突。許多數據倉庫依賴於專有格式,這通常限製了對機器學習的支持。

在數據存儲技術進步的推動下,數據類型和數據量呈指數增長,數據湖在過去十年中得到了廣泛應用。數據湖以低成本、高效的方式存儲和處理數據。數據湖的定義通常與數據倉庫相反:數據倉庫為BI分析提供幹淨、結構化的數據,而數據湖以任何格式永久且廉價地存儲任何性質的數據。許多組織將數據湖用於數據科學和機器學習,但不用於BI報告,因為它是未經驗證的。

數據湖屋取代了現代數據公司目前對數據湖和數據倉庫的依賴,這些公司希望:

  • 開放、直接訪問以標準數據格式存儲的數據。

  • 為機器學習和數據科學優化的索引協議。

  • 用於BI和高級分析的低查詢延遲和高可靠性。

通過將優化的元數據層與以標準格式存儲在雲對象存儲中的驗證數據相結合,數據湖屋允許數據科學家和ML工程師從驅動BI報告的相同數據構建模型。