Delta Lake:雲對象存儲上的高性能ACID表存儲
摘要
像Amazon S3這樣的雲對象存儲是這個星球上規模最大、成本效益最高的存儲係統之一,這使得存儲大型數據倉庫和數據湖具有吸引力。不幸的是,它們作為鍵-值存儲的實現使得難以實現ACID事務和高性能:像列出對象這樣的元數據操作是昂貴的,一致性保證是有限的。在本文中,我們介紹了Delta Lake,一個最初由Databricks開發的雲對象存儲上的開源ACID表存儲層。Delta Lake使用壓縮成Apache Parquet格式的事務日誌,為大型表格數據集提供ACID屬性、時間旅行和顯著更快的元數據操作(例如,快速搜索與查詢相關的數十億個表分區的能力)。它還利用這種設計提供高級特性,如自動數據布局優化、upserts、緩存和審計日誌。Delta Lake表可以從Apache Spark、Hive、Presto、Redshift和其他係統訪問。Delta Lake部署在數千個Databricks客戶上,這些客戶每天處理艾字節級的數據,其中最大beplay体育app下载地址的實例管理艾字節級的數據集和數十億個對象。