宣布Databricks的Delta Live表(DLT)全麵可用
今天,我們激動地宣布Delta Live Tables (DLT)在Amazon AWS和Microsoft Azure雲上普遍可用(GA),並在穀歌雲上公開可用!在這篇博客文章中,我們將探索DLT如何幫助領先公司的數據工程師和分析師輕鬆構建可生產的流媒體或批處理管道,大規模自動管理基礎設施,並交付新一代數據、分析和人工智能應用程序。
beplay体育app下载地址客戶贏得了簡單的流媒體和批量ETL在湖屋
為ETL處理流和批處理工作負載是分析、數據科學和ML工作負載的基本舉措——考慮到組織正在生成的大量數據,這一趨勢正在繼續加速。但是,在將這些原始的、非結構化的數據處理成幹淨的、有文檔的、可信的信息之前,將其用於推動業務洞察是一個關鍵步驟。我們從客戶那裏了解到,將SQL查詢轉換為生產Ebeplay体育app下载地址TL管道通常涉及大量繁瑣而複雜的操作工作。即使規模很小,數據工程師的大部分時間都花在工具和管理基礎設施上,而不是轉換。我們還從客戶那裏了解到,可觀察性和治理是極其難以實beplay体育app下载地址現的,因此,它們經常被完全排除在解決方案之外。這導致花費大量時間在無差別的任務上,導致數據不可信、不可靠且成本高昂。
這就是我們構建Delta LiveTables的原因,這是第一個ETL框架,它使用簡單的聲明性方法來構建可靠的數據管道,並自動大規模管理基礎設施,這樣數據分析師和工程師就可以在工具上花費更少的時間,專注於從數據中獲取價值。DLT允許數據工程師和分析人員通過加速開發和自動化複雜的操作任務來大幅減少實現時間。
Delta Live Tables已經為全球領先公司的生產用例提供了支持。從初創公司到企業,包括ADP、殼牌、H&R Block、Jumbo、Bread Finance、JLL等在內的400多家公司已經使用DLT來推動下一代自助式分析和數據應用程序:
- ADP:“在ADP,我們正在將人力資源管理數據遷移到Lakehouse上的集成數據存儲中。Delta Live Tables幫助我們的團隊構建了質量控製,並且由於聲明性api,隻使用SQL支持批處理和實時,它使我們的團隊在管理數據時節省了時間和精力。——ADP首席數據官Jack Berkowitz
- Audantic:“我們的目標是繼續利用機器學習開發創新產品,將我們的業務擴展到新的市場和地區。數據庫是這一戰略的基礎部分,它將幫助我們更快、更有效地實現這一目標。Delta Live Tables使我們能夠在規模和性能方麵做一些我們以前無法做到的事情——將上市時間縮短了86%。我們現在每天運行我們的管道,而不是以前每周甚至每月運行一次,這是一個數量級的改進。——auantic首席信息官Joel Lowery
- 外殼:“在殼牌,我們將所有傳感器數據聚合到一個集成數據存儲中。Delta Live Tables幫助我們的團隊節省了管理(數萬億記錄規模)數據的時間和精力,並不斷提高我們的人工智能工程能力。這種能力增強了現有的湖屋架構,Databricks正在顛覆ETL和數據倉庫市場,這對像我們這樣的公司很重要。我們很高興能繼續與Databricks作為創新合作夥伴合作。——殼牌數據科學總經理Dan Jeavons
- 麵包融資:“Delta Live Tables支持協作,消除了數據工程資源障礙,允許我們的分析和BI團隊在不了解Spark或Scala的情況下自助服務。事實上,我們的一名數據分析師——之前沒有Databricks或Spark經驗——能夠在幾個小時內構建一個DLT管道,將S3上的文件流轉化為可用的探索性數據集,主要使用SQL。”——麵包財經的高級數據工程師Christina Taylor
ETL處理的現代軟件工程
DLT允許分析師和數據工程師使用SQL和Python輕鬆構建可用於生產的流或批處理ETL管道。它通過唯一地捕獲完整數據管道的聲明性描述來簡化ETL開發,從而實時理解依賴關係並自動消除幾乎所有固有的操作複雜性。使用DLT,工程師可以專注於傳輸數據,而不是操作和維護管道,並利用以下主要優勢:
- 加快ETL發展:與需要手工拚接代碼片段以構建端到端管道的解決方案不同,DLT可以用SQL和Python聲明性地表達整個數據流。此外,DLT本身就支持現代軟件工程最佳實踐,例如在與生產分離的環境中開發的能力,在部署之前輕鬆測試的能力,使用參數化、單元測試和文檔部署和管理環境。因此,您可以簡化ETL管道的開發、測試、部署、操作和監控,使用一流的結構來表示轉換、CI/CD、sla和質量期望,並在單個API中無縫處理批處理和流處理。
- 自動管理基礎設施:DLT從頭開始構建,以自動管理基礎設施並自動化複雜和耗時的活動。考慮到不斷變化的、不可預測的數據量,調整集群以獲得最佳性能可能具有挑戰性,並導致超額配置。DLT自動擴展計算以滿足性能sla,方法是為用戶提供設置最小和最大實例數的選項,並讓DLT根據集群利用率調整集群大小。此外,業務流程、錯誤處理和恢複以及性能優化等任務都是自動處理的。使用DLT,您可以專注於數據轉換,而不是操作。
- 數據的信心:通過內置的質量控製、測試、監控和執行來交付可靠的數據,以確保準確和有用的BI、數據科學和ML。DLT通過使用稱為期望的功能,包括對數據質量管理和監控工具的一流支持,從而輕鬆創建可信的數據源。期望有助於防止壞數據流入表,隨著時間的推移跟蹤數據質量,並提供工具,用細粒度的管道可觀察性對壞數據進行故障排除,這樣您就可以獲得管道的高保真譜係圖,跟蹤依賴關係,並在所有管道中聚合數據質量指標。
- 簡化批處理和流式處理:為應用程序提供最新鮮/最新的數據,數據自優化和自動伸縮的數據管道,用於批處理或流處理,並選擇最佳的性價比。與其他強迫您單獨處理流和批處理工作負載的產品不同,DLT通過一個API支持任何類型的數據工作負載,因此數據工程師和分析師可以更快地構建雲規模的數據管道,而不需要具備高級數據工程技能。
自從DLT預覽版發布以來,我們已經啟用了一些企業功能和UX改進。我們已經擴展了UI,以便更容易地調度DLT管道、查看錯誤、管理acl、改進表沿襲視覺效果,並添加了數據質量可觀察性UI和指標。此外,我們還發布了對變更數據捕獲(CDC)能夠高效、輕鬆地捕捉不斷到達的數據,以及啟動預覽增強的自動縮放這為流工作負載提供了卓越的性能。
開始與三角洲Live表在湖屋
觀看下麵的演示,了解數據工程師和分析師使用DLT的便利性:
如果您已經是Databricks的客戶,隻需按照入門指南.閱讀發行說明以了解更多關於此GA發行版中包含的內容。如果您不是Databricks的現有客戶,注冊免費試用吧你可以查看我們的詳細的DLT定價在這裏.
接下來是什麼
注冊我們的Delta Live Tables網絡研討會由Michael Armbrust和仲量聯行主持4月14日,深入了解更多信息Delta Live Tables在Databricks.com.