三角洲湖是什麼?
Delta Lake是一個開放格式的存儲層,為您的數據湖提供可靠性、安全性和性能流媒體以及批處理操作。通過用結構化、半結構化和非結構化數據的單一存儲空間取代數據孤島,Delta Lake是一個具有成本效益、高度可擴展的湖屋的基礎。
閃電般的表現
借助Apache Spark™,Delta Lake提供了巨大的規模和速度。Delta Lake的客戶已經看到,由於它對索引等性能特性進行了優化beplay体育app下载地址ETL工作負載的執行速度高達48倍.
開放和敏捷
Delta Lake中的所有數據都以開放的Apache Parquet格式存儲,允許任何兼容的讀取器讀取數據。api是開放的,與Apache Spark兼容。使用Databricks上的Delta Lake,您可以訪問一個巨大的開源生態係統,避免數據被專有格式鎖定。
大規模的安全和治理
Delta Lake通過支持數據治理的細粒度訪問控製來降低風險,這是數據湖通常無法實現的功能。您可以快速準確地更新數據湖中的數據,以遵守GDPR等法規,並通過審計日誌維護更好的數據治理。這些功能在Databricks上本機集成和增強,作為數據庫的一部分統一目錄, Lakehouse的第一個多雲數據目錄。
用例
數據上的BI
通過直接在數據湖上運行商業智能工作負載,使數據分析師可以立即查詢新的實時數據,以便立即洞察您的業務。Delta Lake允許您運行多雲湖屋架構,以數據湖經濟的方式提供數據倉庫性能,SQL工作負載的價格/性能比傳統雲數據倉庫高6倍。
統一批處理和流處理
同時運行批處理和流媒體在一個簡化的體係結構上進行操作,避免了複雜、冗餘的係統和操作挑戰。在Delta Lake中,表既是批處理表,又是流源和流接收器。流式數據提取,批量曆史回填和交互式查詢都可以開箱即用,並直接與Spark結構化流集成。
滿足監管需求
Delta Lake消除了畸形數據攝取的挑戰,刪除遵從性數據的困難,以及修改數據以獲取變更數據的問題。通過對數據湖上的ACID事務的支持,Delta lake可以確保每個操作都完全成功或完全中止以供以後重試——而不需要創建新的數據管道。此外,Delta Lake將所有過去的交易記錄在您的數據湖中,因此很容易訪問和使用您以前的數據版本,以可靠地滿足GDPR和CCPA等合規標準。
數據攝取網絡
本地連接器可以輕鬆地從所有應用程序、數據庫和文件存儲中快速可靠地將數據輸入Delta Lake。
beplay体育app下载地址
“為了能夠滿足醫療保健行業的新需求,Databricks提供了所需的上市時間以及分析和運營提升。”
——Peter James,澳大利亞Healthdirect的首席架構師
通過利用Databricks和Delta Lake,我們已經能夠大規模地實現數據民主化,同時將生產工作負載的運行成本降低了60%,為我們節省了數百萬美元。”
- Steve Pulec, YipitData首席技術官
Delta Lake提供ACID功能,簡化數據管道操作,提高管道可靠性和數據一致性。與此同時,緩存和自動索引等功能可以高效地訪問數據。”
- Lara Minor, Columbia Sportswear公司高級企業數據經理
“Delta Lake創建了一種簡化的數據管道管理方法。這降低了運營成本,同時加快了下遊分析和數據科學的洞察時間。”
- Viacom18數字轉型和技術助理副總裁Parijat Dey