今天,我們宣布了新的Databricks SQL服務,為Databricks客戶直接在數據湖上執行BI和SQL工作負載提供一流的體驗。beplay体育app下载地址這次發布為Databricks帶來了全新的體驗,數據分析師和數據工程師一定會喜歡的。該服務提供了專用的sql本地工作空間、內置連接器(允許分析師使用他們已經使用的BI工具查詢數據湖)、查詢性能創新(在分析師傳統訪問的更大更新鮮的數據集上提供快速結果),以及新的治理和管理功能。通過此次發布,我們率先實現了湖屋架構的完整願景,將數據倉庫性能與數據湖經濟相結合。
敵人是複雜性
大多數客戶beplay体育app下载地址通常在雲中使用結合了數據倉庫和數據湖的複雜數據架構來運營業務。因此,客戶的數據通過數據管beplay体育app下载地址道在組織中移動,這些數據管道創建了大量的數據豎井。大量的時間花在維護這些管道和係統上,而不是從數據中創造新的價值,並且由於創建了固有的數據筒倉,數據的下遊消費者很難獲得單一的真相來源。情況變得非常昂貴,無論是在財政上還是在操作上,決策的速度和質量都受到了負麵影響。
解決這個問題是一個循序漸進的過程。它始於40年前客戶將數據從關beplay体育app下载地址係數據庫轉移到數據倉庫以進行商業智能。然後,大約在10年前,數據湖開始出現,因為數據倉庫無法處理原始、視頻、音頻、圖像和自然語言數據,以及非常大規模的結構化數據。
雲中的數據湖具有高持久性、低成本和無限的規模,它們為當今許多企業優先考慮的數據科學和機器學習用例提供了良好的支持。但是,所有傳統的分析用例仍然存在。因此,客戶通常擁有數據beplay体育app下载地址的兩個副本,並為此付費,他們花費大量時間設計流程以保持數據的同步。這對減緩決策產生了連鎖反應,因為分析師和業務線團隊隻能訪問發送到數據倉庫的數據,而不能訪問數據湖中最新、最完整的數據。
最後,隨著多雲成為企業越來越普遍的現實,所有這些數據移動都在多個雲平台上重複。Beplay体育安卓版本
整個情況一團糟。
來自相互交織的數據湖和數據倉庫的複雜性是不可取的,我們的客戶告訴我們,他們希望能夠整合和簡化他們的數據架構。beplay体育app下载地址對非結構化和大規模數據的高級分析和機器學習是當今企業最重要的戰略重點之一,而且非結構化數據的增長將呈指數級增長,因此客戶考慮將其數據湖定位為數據基礎設施的中心是有意義的。beplay体育app下载地址然而,要實現這一點,數據湖需要一種方法來采用數據倉庫的優勢。
湖屋結合了最好的數據倉庫和數據湖
解決這種複雜性的答案是湖屋,這是一種結合了數據湖和數據倉庫的最佳元素的平台體係結構。Beplay体育安卓版本湖屋是通過一種新的係統設計實現的,該設計實現了與直接在雲數據湖的低成本存儲上的數據倉庫中的數據結構和數據管理功能類似的數據結構和數據管理功能。在現代世界中,如果您必須重新設計數據倉庫,那麼您將得到這種體係結構,因為現在有了廉價且高度可靠的存儲(以對象存儲的形式)。你可以在這裏讀到更多關於湖屋的特征博客.
湖屋的地基是三角洲湖.Delta Lake為數據湖帶來了可靠性、性能、治理和質量,這是在數據湖上進行分析所必需的。現在,有了正確的數據結構和數據管理功能,要完成湖屋的最後一公裏就是解決數據分析師實際如何查詢數據湖的問題。
介紹Databricks SQL
Databricks SQL允許客戶在多雲湖beplay体育app下载地址屋架構上執行BI和SQL工作負載。這個新服務由四個核心組件組成:專用的sql本機工作空間、通用BI工具的內置連接器、查詢性能創新以及治理和管理功能。
一個sql本地工作空間
Databricks SQL為數據分析師提供了一個新的、專用的工作空間,它使用熟悉的基於SQL的環境查詢數據湖上的Delta Lake表。因為Databricks SQL是一個完全獨立的工作空間,數據分析師可以直接在Databricks平台中工作,而不受基於筆記本的數據科學工具的幹擾(盡管我們發現數據科學家也非常喜歡與SQL編輯器一起工作)。Beplay体育安卓版本但是,由於數據分析師和數據科學家都使用相同的數據源進行工作,因此整體基礎設施大大簡化,並維護了單一的真實源。
工作區允許分析人員輕鬆地探索模式,將經常使用的代碼保存為片段以便快速重用,並緩存查詢結果以縮短後續運行時間。此外,查詢更新可以安排為自動刷新,以及通過電子郵件或Slack在刷新時發出自動警報,當數據中發生有意義的變化時。
工作區還允許分析人員通過豐富的可視化來理解數據,並將這些可視化組織到拖放儀表板中。一旦構建完成,儀表板就可以很容易地與利益相關者共享,從而使共享數據見解在整個組織中無處不在。
內置到現有BI工具的連接器和廣泛的合作夥伴支持
對於生產BI,許多客戶已經投資於BI軟件,如Tabeplay体育app下载地址bleau和Microsoft Power BI。為了讓這些工具在數據湖中查詢最新鮮、最完整的數據,Databricks SQL為目前可用的所有主要BI工具提供了內置連接器。
在整個數據生命周期中,Databricks SQL的發布得到了Databricks生態係統中500多個合作夥伴的支持。我們很高興有以下合作夥伴在這次發布中與我們共同投資,使客戶能夠使用他們最喜歡的分析工具,包括Databricks SQL和lakehouse架構:beplay体育app下载地址
- BI合作夥伴:表,權力BI,Qlik,美人,Thoughtspot
- 攝取的合作夥伴:Fivetran,Fishtown分析,Matillion,Talend,Qlik
- 目錄的合作夥伴:Collibra,Alation
- 谘詢合作夥伴:激流回旋,Thorogood,先進的分析,Avanade
快速查詢性能
在數據湖上啟用分析工作負載的很大一部分是解決性能問題。要獲得出色的性能,需要解決兩個核心挑戰:查詢吞吐量和用戶並發性。
今年早些時候,我們宣布光子引擎我們的多態查詢執行引擎。Photon Engine通過三個組件加速了Delta Lake對SQL和數據幀工作負載的性能:改進的查詢優化器,位於執行層和雲對象存儲之間的緩存層,以及用c++編寫的多態向量化執行引擎。使用Photon,客戶觀察beplay体育app下载地址到查詢執行時間比Apache Spark 3.0快10倍。
處理完吞吐量後,我們將注意力轉向用戶並發性。從曆史上看,數據湖很難在高用戶數的情況下保持快速的性能。為了解決這個問題,Databricks SQL添加了新的SQL優化的計算集群,隨著查詢數據湖的數據分析師數量的增加,這些集群可以根據用戶負載自動伸縮,從而提供一致的性能。設置這些集群是快速和容易通過控製台,Photon引擎是內置的,以確保最高水平的查詢吞吐量。外部BI客戶端可以通過專用端點連接到集群。
治理和管理
最後,在Databricks SQL控製台中,我們允許管理員應用SQL數據訪問控製(AWS,Azure)到您的表中,以獲得對數據湖中的數據如何用於分析的更大控製。此外,我們還提供了對所有已執行查詢曆史的深度可見性,允許您探索每個查詢的人員、時間和位置以及已執行的代碼,以幫助您進行合規性和審計。查詢曆史還允許您了解查詢執行的每個階段的性能,以幫助進行故障排除。
在管理方麵,您可以聚合查詢運行時、並發查詢、每小時排隊查詢峰值等詳細信息,以幫助您隨著時間的推移更好地優化基礎設施。您還可以圍繞運行時限製設置控件,以防止不良行為者和失控查詢、排隊查詢限製等等。
開始
Databricks SQL完成了將湖屋架構從願景變為現實的最後一步,Databricks自豪地成為第一個將完整的湖屋解決方案推向市場的公司。數據團隊的所有成員,從數據工程師和架構師到數據分析師到數據科學家,比以往任何時候都更加合作。Databricks平台的統一方法使協同工作和創新變得容易,使用單一的真相來源Beplay体育安卓版本,極大地簡化了數據基礎設施並降低了成本。
Databricks SQL在今天的預覽版中可用。現有客戶可以聯係他beplay体育app下载地址們的客戶團隊以獲得訪問權限。此外,您可以通過Databricks SQL產品頁麵.