跳轉到主要內容
公司博客上

磚組官方數據倉庫性能記錄

2021年的11月2日 公司博客上

分享這篇文章

今天,我們很自豪地宣布磚的SQL樹立了一個新的世界紀錄100年結核病TPC-DS數據倉庫,黃金標準的性能基準。磚SQL超過2.2倍的紀錄。與大多數其他基準新聞,這個結果已經正式TPC委員會的審計和審閱。

這些結果證實了研究從巴塞羅那超級計算中心,經常運行基準的導數TPC-DS流行的數據倉庫。他們的最新研究數據磚和雪花相比,發現磚快2.7倍和12 x更好的性價比。這個結果驗證了論文,數據倉庫如雪花成為昂貴的數據大小的增加產量。

磚一直快速發展的全麵的數據倉庫功能直接在數據湖泊,使在一個數據架構稱為兩全其美數據lakehouse。我們宣布我們的全套數據倉庫功能磚SQL 2020年11月。懸而未決的問題自那時起已經開放的架構基於lakehouse能否提供性能、速度和成本的典型的數據倉庫。這個結果證明毫無疑問這是可能的和可以實現的lakehouse架構。

而不僅僅是分享結果,我們想借此機會與您分享我們的故事完成這種級別的性能和進入它的努力。但是我們將開始與結果:

TPC-DS世界紀錄

磚SQL的交付32941245 QphDS @ 100結核病。這比之前的世界紀錄被阿裏巴巴的自定義構建係統,它實現14861137 QphDS @ 100結核病,2.2 x。(阿裏巴巴有一個令人印象深刻的係統支持世界上最大的電子商務平台)。Beplay体育安卓版本磚SQL不僅大大擊敗紀錄,它通過降低係統的總成本10%(基於出版上市定價沒有任何折扣)。

這是很正常的,如果你不知道單位QphDS意味著什麼。(我們不沒有看公式。)QphDS TPC-DS的主要指標,代表的工作負載的性能組合,包括加載數據集(1),(2)處理序列的查詢(功率測試),(3)處理多個並發查詢流(吞吐量測試),和(4)運行數據插入和刪除數據的維護功能。

上述結論是進一步支持的研究小組在巴塞羅那超級計算中心(BSC)最近進行了不同基準來自TPC-DS磚SQL和雪花的比較,發現磚SQL是2.7倍的速度比一個同樣大小的雪花設置。

圖1:運行時間為測試來自TPC-DS 100 tb權力運行,由巴塞羅那超級計算中心。
圖1:運行時間為測試來自TPC-DS 100 tb權力運行,由巴塞羅那超級計算中心。

圖2:價格/性能測試來自TPC-DS 100 tb權力運行,由巴塞羅那超級計算中心。
圖2:價格/性能測試來自TPC-DS 100 tb權力運行,由巴塞羅那超級計算中心。

TPC-DS是什麼?

TPC-DS數據倉庫是一個基準定義的事務處理性能委員會(TPC)。TPC是一個非營利組織開始由數據庫社區在80年代後期,專注於創建基準模擬真實場景,因此,可以用客觀測量數據庫係統的性能。TPC有深遠的影響領域的數據庫,建立供應商之間長達十年的“基準大戰”像甲骨文、微軟和IBM推動這個領域的發展。

“DS”TPC-DS代表“決策支持”。It includes 99 queries of varying complexity, from very simple aggregations to complex pattern mining. It is a relatively new (work started in mid 2000s) benchmark to reflect the growing complexity of analytics. In the last decade or so, TPC-DS has become the de facto standard data warehousing benchmark, adopted by virtually all vendors.

然而,由於其複雜性,許多數據倉庫係統,甚至那些由最主要的供應商,有官方基準調整他們自己的係統可能會表現很好。(一些常見的調整包括移除某些SQL特性,比如彙總或改變數據分布將傾斜)。這是其中一個原因很少有提交官方TPC-DS基準,盡管400萬多頁關於TPC-DS在互聯網上。調整也表麵上解釋為什麼大多數供應商似乎打敗所有其他廠商根據自己的基準。

我們是怎麼做到的?

如前所述,有開放式問題是否可能磚SQL SQL性能表現數據倉庫。大部分的挑戰可以簡化為以下四個問題:

  1. 數據倉庫利用專有的數據格式和,因此,可以迅速發展,而磚(基於Lakehouse)依賴於開放格式(比如Apache拚花和三角洲湖),不改變很快。因此,倉庫會有固有的優勢。
  2. 偉大的SQL性能要求MPP大規模並行處理架構,和磚和Apache的火花並不MPP。
  3. 經典的權衡吞吐量和延遲意味著係統可以對大型查詢(吞吐量集中)或小型查詢(延遲集中),而不是兩個。因為磚關注大型查詢,我們不得不為小查詢表現不佳。
  4. 即使這是可能的,傳統智慧是,它會花上十年或更長的時間來構建數據倉庫係統。沒有辦法可以取得進展得如此之快。

在博客文章的其餘部分,我們將討論它們。

專有的和開放的數據格式

的關鍵原則之一Lakehouse架構是開放的存儲格式。“開放”不僅避免廠商鎖定,而且使一個生態係統的獨立開發供應商的工具。開放格式的主要好處之一是標準化。這種標準化的結果,大部分的企業數據坐在開放數據湖泊和Apache鑲木地板已成為事實上的標準來存儲數據。通過將數據warehouse-grade性能開放格式,我們希望減少數據移動和簡化BI和人工智能工作負載的數據架構。

一個明顯的攻擊“開放”是開放格式很難改變,因此很難得到改善。盡管這種觀點在理論上是有道理的,但它在實踐中是不準確的。

首先,它絕對是可能的開放格式演變。拚花,最流行的開放格式對於大數據存儲、經曆了多個迭代的改進。的一個主要動機為我們介紹三角洲湖引入額外的功能,在鋪層很難做。三角洲湖為拚花帶來了額外的索引和統計數據。

第二,生三角洲湖和鋪磚係統自動轉碼的數據轉換成一個更有效的格式加載數據從對象存儲到本地NVMe ssd時(沒有用戶幹預)。這使得進一步的優化機會。

說,對於大多數數據倉庫工作負載,三角洲湖和拚花已經提供足夠優化相比,數據倉庫使用的專用格式。對於這些工作負載,優化機會主要來自處理查詢的能力更快,而不是掃描更多的數據更快。作為TPC-DS,事實上,查詢數據緩存在一個更優化的內部格式隻有10%的速度比在S3中查詢冷數據(我們發現對數據倉庫我們基準測試和磚)。

MPP架構

一個常見的誤解是,數據倉庫使用SQL性能的MPP架構,是偉大的,雖然磚不。MPP架構能力指的是利用多個節點處理一個查詢。這就是磚SQL架構。它不是基於Apache火花,而是光子的,一個完整的重寫引擎,在c++從零開始,為現代SIMD硬件和沉重的並行查詢處理。因此光子MPP引擎。

吞吐量和延遲貿易

吞吐量和延遲是經典的權衡在計算機係統中,這意味著係統不能同時得到高吞吐量和低延遲。如果一個設計有利於吞吐量(如通過批處理數據),它必須犧牲延遲。數據係統的上下文中,這意味著係統不能處理大型查詢和小查詢有效地同時。

我們不否認存在這種權衡。事實上,我們經常討論它在我們的技術設計文檔。然而,當前最先進的係統,包括我們自己的,所有的受歡迎的倉庫是遠離最優前沿吞吐量和延遲方麵。

因此,完全有可能想出一個新的設計和實現,同時提高其吞吐量和延遲。這就是我們已經構建了幾乎所有的關鍵支持技術在過去的兩年裏:光子,三角洲湖,和許多其他尖端技術改善了兩個大型和小型的查詢的性能,推動邊境一個新的業績記錄。

時間和關注

最後,傳統智慧是,它至少需要十年甚至更多的成熟的數據庫係統。鑒於磚近期關注Lakehouse(支持SQL工作負載),它將花費額外的精力SQL性能。這是有效的,但是讓我們解釋我們如何做它比人們想象的要快得多。

首先,這項投資不隻是一兩年前開始。磚開始以來,我們一直在投資於各種基礎技術支持SQL工作負載也將從中受益的人工智能工作負載在磚上。這包括一個全麵的基於成本的查詢優化器,一個本地矢量化執行引擎,以及各種功能窗口功能。絕大多數的工作負載在磚上運行通過這些多虧了火花的DataFrame API,這些組件映射到SQL引擎,所以有多年的測試和優化。我們沒有做盡可能多的強調SQL工作負載。向Lakehouse是最近一個定位的變化,由我們的客戶的願望來簡化他們的數據架構。beplay体育app下载地址

第二,SaaS模型加速了軟件開發周期。在過去,大多數供應商每年發布周期,然後另一個多年周期為客戶安裝和采用的軟件。beplay体育app下载地址在SaaS,我們的工程團隊可以想出一個新的設計,實現它,並釋放它在幾天內客戶的一個子集。beplay体育app下载地址這縮短了開發周期使團隊能夠快速得到反饋和創新更快。

第三,磚可以帶來更多的關注領導的帶寬和資本這一問題。過去企圖建立一個新的數據倉庫係統是通過創業公司或大型公司內部一個新的團隊。從來沒有一個數據庫啟動資金因為磚(超過3.5美元)提高到吸引人才需要構建。一個新的工作在一個大公司將是另一個的努力,和不會有領導的充分重視。

我們有一個獨特的情況:我們最初集中在建立我們的業務不是數據倉庫,但是在相關領域科學和人工智能(數據),共享很多常見的技術問題。這個初步的成功使我們基金史上最激進的SQL團隊建設;在很短的時間內,我們組建了一個團隊和廣泛的數據倉庫的背景,這一壯舉將許多其他公司十年。其中包括首席工程師和設計師的一些最成功的數據係統,包括亞馬遜紅移;穀歌BigQuery F1(穀歌內部數據倉庫係統)和Procella (Youtube的內部數據倉庫係統);甲骨文;IBM DB2;和Microsoft SQL Server。

總而言之,需要多年才能建立偉大的SQL性能。我們不僅加速利用我們獨特的情況下,我們也開始年前即使我們沒有使用擴音器來宣傳這個計劃。

真實的客戶工作負載

我們很興奮地看到這些基準測試結果驗證了我們的客戶。beplay体育app下载地址在5000年全球組織一直在利用磚Lakehouse平台來解決一些世界上最嚴格的問題。Beplay体育安卓版本例如:

  • 麵包金融是一個技術驅動的支付平台與大數據用例,如財務報告欺詐檢測,信貸風險,損失估計和fulBeplay体育安卓版本l-funnel推薦引擎。在磚Lakehouse的平台上,他們能夠從夜間批處理作業Beplay体育安卓版本轉移到近乎實時的攝入,並減少數據處理時間90%。此外,數據平台可以擴展到140 x的體Beplay体育安卓版本積數據隻有1.5 x的成本。
  • 殼牌使用我們的lakehouse平台使數以百計的數Beplay体育安卓版本據分析師pb級別上執行快速查詢數據集使用標準的BI工具,他們認為是一個“遊戲規則改變者”。
  • Regeneron加速藥物目標識別,提供更快的見解計算生物學家通過減少所花費的時間在他們的整個運行查詢數據集從30分鍾3秒- 600 x的改進。

總結

磚SQL, Lakehouse架構之上,在市場上最快的數據倉庫,並提供最好的價格/性能。現在就可以獲得巨大的性能在所有數據低延遲一旦新數據攝取無需出口到另一個係統。

這是一個證明Lakehouse願景,湖泊帶來世界級的數據倉庫的性能數據。當然,我們並沒有建立一個數據倉庫。Lakehouse架構能夠覆蓋所有工作負載數據,從數據倉庫科學和機器學習。

但是我們還沒有完成。我們組裝市場上最好的球隊,他們正在努力提供接下來的性能突破。除了性能之外,我們還致力於無數改進易用性和治理。期待更多的消息從我們在未來的一年。

基準的TPC不審核或驗證結果來源於TPC-DS和不考慮結果的派生基準與TPC-DS公布結果。

免費試著磚

相關的帖子

看到所有公司博客上的帖子
Baidu
map