Delta Lake是一個開源存儲層,為數據湖帶來可靠性。Delta Lake提供ACID事務,可擴展的元數據處理,並統一流和批處理數據。Delta Lake運行在您現有的數據湖之上,並且完全兼容Apache Spark api。
具體來說,Delta Lake提供:
- Spark上的ACID事務:序列化隔離級別確保讀取器永遠不會看到不一致的數據。
- 可擴展元數據處理:利用Spark的分布式處理能力,輕鬆處理包含數十億個文件的pb級表的所有元數據。
- 流和批處理的統一:Delta Lake中的表既是批處理表,也是流的源和彙。流數據攝取,批處理曆史回填,交互式查詢都是開箱即用的。
- 模式強製:自動處理模式變化,以防止在攝取期間插入壞記錄。
- 時間旅行:數據版本支持回滾、完整的曆史審計跟蹤和可重複的機器學習實驗。
在本次網絡研討會上,您將有機會直接聽取負責Delta Lake項目的首席工程師Michael Armbrust的發言,並向他提問。
演講者
|
|
邁克爾時常要 Databricks首席工程師 |
|