什麼是三角洲湖?
Delta Lake是一個開放格式的存儲層,可為數據湖提供可靠性、安全性和性能——可用於流和批處理操作。通過將數據豎井替換為結構化、半結構化和非結構化數據的單一家園,Delta Lake是一個具有成本效益的、高度可伸縮的湖屋的基礎。
高質量、可靠的數據
為您的所有數據(包括實時數據流)提供可靠的單一真實來源,這樣您的數據團隊就總是使用最新的數據。通過對ACID事務和模式實施的支持,Delta Lake提供了傳統數據湖所缺乏的可靠性。這使您能夠在整個組織範圍內擴展可靠的數據洞察,並直接在您的數據湖上運行分析和其他數據項目——直到快50倍time-to-insight.
開放和安全的數據共享
閃電般的表現
在Apache Spark™的支持下,Delta Lake提供了巨大的規模和速度。而且,由於德爾塔湖的客戶已經看到,它在性能方麵進行了優化,比如索引beplay体育app下载地址ETL工作負載執行速度高達48%.
開放和敏捷
Delta Lake中的所有數據都以開放的Apache Parquet格式存儲,允許任何兼容的閱讀器讀取數據。api是開放的,與Apache Spark兼容。通過在Databricks上使用Delta Lake,您可以訪問一個龐大的開源生態係統,並避免數據被專有格式所鎖定。
大規模的安全性和治理
Delta Lake通過支持細粒度的數據治理訪問控製來降低風險,而數據湖通常不可能實現這些功能。您可以快速準確地更新數據湖中的數據,以符合GDPR等法規,並通過審計日誌維護更好的數據治理。這些功能是在Databricks上集成和增強的統一目錄這是湖屋的第一個多雲數據目錄。
用例
BI在你的數據上
通過直接在您的數據湖上運行商業智能工作負載,使新的實時數據立即可用,以便數據分析師查詢您的業務,從而對您的業務進行即時洞察。Delta Lake允許你操作一個多雲的湖屋架構,在數據湖經濟上提供數據倉庫性能,在SQL工作負載上比傳統的雲數據倉庫更好的價格/性能6倍。
統一批量和流式
在一個簡化的體係結構上運行批處理和流操作,以避免複雜、冗餘的係統和操作挑戰。在Delta Lake中,表既是批處理表,又是流源和流彙。流式數據獲取、批量曆史回填和交互式查詢都可以開箱即用,並直接與Spark結構化流集成。
滿足監管的需要
Delta Lake消除了畸形數據攝入的挑戰,為遵從性刪除數據的困難,以及為更改數據捕獲而修改數據的問題。通過對數據湖上的ACID事務的支持,Delta lake確保每個操作要麼完全成功,要麼在以後重試時完全中止——而不需要創建新的數據管道。此外,Delta Lake記錄了您的數據湖上所有過去的交易,因此很容易訪問和使用您的數據的以前版本,以可靠地滿足GDPR和CCPA等標準。
數據攝取網絡
本地連接器可以輕鬆地從所有應用程序、數據庫和文件存儲中快速、可靠地將數據輸入到Delta Lake。
beplay体育app下载地址
“為了能夠滿足醫療保健行業的新需求,Databricks提供了我們所需的上市時間、分析和運營提升。”
-澳大利亞直接健康首席建築師Peter James
“通過利用Databricks和Delta Lake,我們已經能夠實現大規模數據民主化,同時降低了60%的生產工作負載成本,為我們節省了數百萬美元。”
——Steve Pulec, YipitData首席技術官
Delta Lake提供ACID功能,簡化數據管道操作,提高管道的可靠性和數據一致性。與此同時,緩存和自動索引等功能可以有效地訪問數據。”
——哥倫比亞運動服裝公司高級企業數據經理Lara Minor
“Delta Lake創建了一種精簡的數據管道管理方法。這降低了運營成本,同時加快了下遊分析和數據科學的時間。”
- Viacom18數字轉型與技術助理副總裁Parijat Dey