什麼是Databricks Lakehouse?
Databricks Lakehouse將企業數據倉庫的ACID事務和數據治理與數據湖的靈活性和成本效益相結合,在所有數據上實現商業智能(BI)和機器學習(ML)。Databricks Lakehouse以開源數據標準將數據保存在大規模可擴展的雲對象存儲中,允許您以任何方式和任何地方使用數據。
Databricks Lakehouse的組成部分
Databricks Lakehouse的主要組成部分是:
預覽
Unity目錄在私人預覽在穀歌雲上的數據。嚐試一下,聯係你的Databricks聯係人。
通過使用三角洲湖,您可以使下遊數據科學家、分析師和機器學習工程師在處理數據後立即利用相同的生產數據來支持核心ETL工作負載。
Unity Catalog確保您可以完全控製誰可以訪問哪些數據,並提供了一個集中的機製來管理所有數據治理和訪問控製,而無需複製您的數據。
三角洲表
Databricks上創建的表默認使用Delta Lake協議。當你創建一個新的Delta表:
用於引用表的元數據被添加到聲明的模式或數據庫中的metastore中。
數據和表元數據保存在雲對象存儲的目錄中。
對Delta表的metastore引用在技術上是可選的;您可以通過使用直接與目錄路徑交互來創建Delta表火花api.一些基於Delta Lake的新功能將在表目錄中存儲額外的元數據,但所有Delta表都有:
包含Parquet文件格式的表數據的目錄。
一個目錄
/ _delta_log
包含JSON和Parquet格式的表版本元數據。
統一目錄
Unity Catalog在Databricks上統一數據治理和發現。在筆記本、作業和Databricks SQL中,Unity Catalog提供了支持為數據湖和數據倉庫設計的工作負載和用戶的功能和ui。
Unity Catalog亞存儲的帳戶級管理意味著數據庫、數據對象和權限可以在Databricks工作空間之間共享。
您可以利用三層命名空間(
<目錄>。<數據庫>。<表>
),用以組織及授權查閱資料。外部位置和存儲憑據也是安全對象,具有與其他數據對象類似的ACL設置。
的數據瀏覽提供一個圖形用戶界麵來瀏覽數據庫和管理權限。
數據湖屋vs數據倉庫vs數據湖
數據倉庫為商業智能(BI)決策提供了大約30年的動力,已經發展成為一套控製數據流的係統設計指南。企業數據倉庫優化BI報告的查詢,但生成結果可能需要幾分鍾甚至幾小時。數據倉庫是為不太可能頻繁更改的數據設計的,它試圖防止並發運行的查詢之間發生衝突。許多數據倉庫依賴於專有格式,這通常限製了對機器學習的支持。Databricks上的數據倉庫利用了Databricks Lakehouse和Databricks SQL的功能。有關更多信息,請參見什麼是Databricks上的數據倉庫?.
在數據存儲技術進步的推動下,在數據類型和數據量的指數級增長的推動下,數據湖在過去十年中得到了廣泛應用。數據湖以低成本高效的方式存儲和處理數據。數據湖的定義通常與數據倉庫相反:數據倉庫為BI分析提供幹淨、結構化的數據,而數據湖以任何格式永久且廉價地存儲任何性質的數據。許多組織將數據湖用於數據科學和機器學習,但由於其未經驗證的性質,因此不用於BI報告。
數據湖屋取代了現代數據公司目前對數據湖和數據倉庫的依賴,這些公司希望:
開放、直接訪問以標準數據格式存儲的數據。
為機器學習和數據科學優化的索引協議。
用於BI和高級分析的低查詢延遲和高可靠性。
通過將優化的元數據層與雲對象存儲中以標準格式存儲的驗證數據相結合,數據湖屋允許數據科學家和ML工程師從驅動BI報告的相同數據構建模型。