Delta-Lake-OS-Webinar-Marketo Header@2x.jpg

Delta Lake:數據湖的開源可靠性

按需網絡研討會

Delta Lake是一個開源存儲層,為數據湖帶來可靠性。Delta Lake提供ACID事務,可擴展的元數據處理,並統一流和批處理數據。Delta Lake運行在您現有的數據湖之上,並且完全兼容Apache Spark api。

具體來說,Delta Lake提供:
  • Spark上的ACID事務:序列化隔離級別確保讀取器永遠不會看到不一致的數據。
  • 可擴展元數據處理:利用Spark的分布式處理能力,輕鬆處理包含數十億個文件的pb級表的所有元數據。
  • 流和批處理的統一:Delta Lake中的表既是批處理表,也是流的源和彙。流數據攝取,批處理曆史回填,交互式查詢都是開箱即用的。
  • 模式強製:自動處理模式變化,以防止在攝取期間插入壞記錄。
  • 時間旅行:數據版本支持回滾、完整的曆史審計跟蹤和可重複的機器學習實驗。

在本次網絡研討會上,您將有機會直接聽取負責Delta Lake項目的首席工程師Michael Armbrust的發言,並向他提問。


演講者

michael-armbrust.jpg

邁克爾時常要
Databricks首席工程師



按需網絡研討會

Baidu
map