簡介
三角洲湖是一個開源項目這使得構建一個Lakehouse架構在…之上數據的湖泊.三角洲湖提供了ACID事務,可擴展的元數據處理,並統一流媒體而且批處理在現有數據湖之上進行數據處理。
想要快速了解三角洲湖的概況和好處,請觀看這段YouTube視頻(3分鍾)。
具體來說,三角洲湖提供:
ACID事務在Spark上:序列化隔離級別確保讀取器永遠不會看到不一致的數據。
可擴展的元數據處理:利用Spark分布式處理能力輕鬆處理數十億文件的pb級表的所有元數據。
流媒體而且批處理統一:Delta Lake中的表既是一個批處理表,也是一個流源和流彙。流數據攝入,批量曆史回填,交互式查詢都是開箱即用的。
模式實施:自動處理模式變化,以防止在攝入過程中插入壞記錄。
時間旅行:數據版本控製支持回滾、完整的曆史審計跟蹤和可重複的機器學習實驗。
插入而且刪除:支持合並、更新和刪除操作,以支持複雜的用例,如更改數據捕獲、緩慢更改維度(SCD)操作、流upserts等。
要了解三角洲湖的一般介紹和演示,請觀看這段YouTube視頻(51分鍾)。
Delta Engine優化使Delta Lake操作具有很高的性能,支持從大規模ETL處理到特別的交互式查詢的各種工作負載。有關Delta Engine的信息,請參見優化.
快速入門
Delta Lake快速入門提供了使用Delta Lake的基本知識的概述。的快速入門演示如何將數據加載到Delta表中、修改表、讀取表、顯示表曆史和優化表。
關於演示這些特性的Databricks筆記本,請參見介紹性的筆記本.
要嚐試三角洲湖,請參見注冊Databricks.
關鍵任務
下麵的列表提供了常見Delta Lake任務的文檔鏈接。
創建一個Delta表:快速啟動,作為批處理數據任務的一部分
在Delta Lake表中加載和寫入數據:
從Delta表中讀取數據:快速啟動,作為批處理數據任務的一部分,作為流媒體的一部分
優化Delta表:快速啟動,作為垃圾箱包裝的一部分,作為z順序的一部分,作為文件大小調優的一部分
顯示一個Delta表的曆史:快速啟動,作為數據實用程序的一部分
清理Delta表快照(真空):快速啟動,作為數據實用程序的一部分
使用Delta表列:
使用Delta表版本:
查詢Delta表的早期版本(時間旅行):快速啟動,作為批處理數據任務的一部分
使用Delta表元數據: