簡介

三角洲湖是一個開源項目這使得構建一個Lakehouse架構在…之上數據的湖泊.三角洲湖提供了ACID事務,可擴展的元數據處理,並統一流媒體而且批處理在現有數據湖之上進行數據處理。

想要快速了解三角洲湖的概況和好處,請觀看這段YouTube視頻(3分鍾)。

具體來說,三角洲湖提供:

  • ACID事務在Spark上:序列化隔離級別確保讀取器永遠不會看到不一致的數據。

  • 可擴展的元數據處理:利用Spark分布式處理能力輕鬆處理數十億文件的pb級表的所有元數據。

  • 流媒體而且批處理統一:Delta Lake中的表既是一個批處理表,也是一個流源和流彙。流數據攝入,批量曆史回填,交互式查詢都是開箱即用的。

  • 模式實施:自動處理模式變化,以防止在攝入過程中插入壞記錄。

  • 時間旅行:數據版本控製支持回滾、完整的曆史審計跟蹤和可重複的機器學習實驗。

  • 插入而且刪除:支持合並、更新和刪除操作,以支持複雜的用例,如更改數據捕獲、緩慢更改維度(SCD)操作、流upserts等。

要了解三角洲湖的一般介紹和演示,請觀看這段YouTube視頻(51分鍾)。

Delta Engine優化使Delta Lake操作具有很高的性能,支持從大規模ETL處理到特別的交互式查詢的各種工作負載。有關Delta Engine的信息,請參見優化

快速入門

Delta Lake快速入門提供了使用Delta Lake的基本知識的概述。的快速入門演示如何將數據加載到Delta表中、修改表、讀取表、顯示表曆史和優化表。

關於演示這些特性的Databricks筆記本,請參見介紹性的筆記本

要嚐試三角洲湖,請參見注冊Databricks

關鍵任務

下麵的列表提供了常見Delta Lake任務的文檔鏈接。

資源

要想在三角洲湖上進行深度潛水訓練,請觀看這個YouTube視頻(2小時42分鍾)。