三角洲湖是什麼?

Delta Lake是經過優化的存儲層,為Databricks Lakehouse平台中存儲數據和表提供了基礎。Beplay体育安卓版本三角洲湖開源軟件使用基於文件的事務日誌擴展Parquet數據文件ACID事務以及可伸縮的元數據處理。Delta Lake與Apache Spark api完全兼容,並與結構化流緊密集成,允許您輕鬆地使用單個數據副本進行批處理和流操作,並提供大規模增量處理。

Delta Lake是Databricks上所有操作的默認存儲格式。除非另有說明,Databricks上的所有表都是Delta表。Databricks最初開發了Delta Lake協議,並繼續積極地為開源項目做出貢獻。Databricks Lakehouse平台中的許多優化和產品都建立在Apache Spark和Delta Lake提供的保證之上。Beplay体育安卓版本有關Databricks上的優化的信息,請參見關於數據庫的優化建議

有關Delta Lake SQL命令的參考信息,請參見三角洲湖陳述

Delta Lake事務日誌具有定義良好的開放協議,任何係統都可以使用該協議讀取日誌。看到Delta事務日誌協議

我們從德爾塔湖開始

Databricks上的所有表默認都是Delta表。是否使用Apache SparkDataFrames或者SQL,您隻需將數據保存到默認設置的湖屋,就可以獲得Delta Lake的所有好處。

有關基本Delta Lake操作(如創建表、讀取、寫入和更新數據)的示例,請參見教程:三角洲湖

Databricks有許多建議三角洲湖的最佳實踐

將數據轉換和攝取到Delta Lake

Databricks提供了許多產品來加速和簡化加載數據到您的湖屋。

有關攝入選項的完整列表,請參見將數據加載到Databricks Lakehouse

更新和修改Delta Lake表

Delta Lake的原子事務為更新數據和元數據提供了許多選項。Databricks建議您避免直接與Delta Lake文件目錄中的數據和事務日誌文件交互,以避免損壞您的表。

增量和流工作負載在三角洲湖

三角洲湖是優化的結構化流數據。Delta活動表通過簡化基礎設施部署、增強可伸縮性和托管數據依賴關係擴展本機功能。

查詢表的以前版本

每次寫入Delta表都會創建一個新的表版本。可以使用事務日誌查看對表的修改,並查詢以前的表版本。看到工作與三角洲湖表曆史

Delta Lake模式增強

Delta Lake在寫入時驗證模式,確保寫入表的所有數據都符合您設置的要求。

使用Delta Lake管理文件和索引數據

Databricks為Delta Lake設置了許多默認參數,這些參數會影響數據文件的大小和曆史記錄中保留的表版本的數量。Delta Lake結合使用元數據解析和物理數據布局來減少為完成任何查詢而掃描的文件數量。

配置和檢查Delta Lake設置

Databricks將Delta Lake表的所有數據和元數據存儲在雲對象存儲中。許多配置可以在表級或Spark會話中設置。您可以查看Delta表的詳細信息,以發現配置了哪些選項。

使用Delta Lake和Delta Live table的數據管道

Databricks鼓勵用戶利用a大獎章架構在清理和充實數據時,通過一係列表處理數據。Delta活動表通過優化執行和自動化基礎設施部署和擴展簡化ETL工作負載。

故障排除Delta Lake功能

並非所有版本的Databricks Runtime中都有Delta Lake的所有特性。您可以在以下文章中找到關於Delta Lake版本控製的信息和常見問題的答案:

Delta Lake API文檔

對於Delta表上的大多數讀寫操作,可以使用火花SQL或Apache SparkDataFrameapi。

有關特定於Delta lake的SQL語句,請參見三角洲湖陳述

Databricks確保在Databricks運行時與Delta Lake api的二進製兼容性。要查看每個Databricks Runtime版本中打包的Delta Lake API版本,請參見係統環境在相關文章的章節中Databricks運行時發布說明.Delta Lake api適用於Python、Scala和Java: