跳轉到主要內容
公司博客上

雪花聲稱價格/性能數據磚類似,但不要抓得太緊!

分享這篇文章

2021年11月2日,我們宣布我們設置了官方的世界紀錄最快的數據倉庫與數據磚SQL lakehouse平台。Beplay体育安卓版本這些結果是審計和報告的官方事務處理性能委員會(TPC)的一份37頁的文檔網上在tpc.org上。我們還共享一個第三方基準的巴塞羅那超級計算中心(BSC)概述了磚SQL明顯比雪花更快和更符合成本效益。

那之後發生了很多:許多祝賀你,有些問題,有些酸葡萄心理。我們借此機會重申我們站在我們的博客和結果:磚SQL提供了優越的性能和價格性能隨著雪花,即使在數據倉庫工作負載(TPC-DS)

雪花的回應:“缺乏誠信”?

雪花回應後10天我們出版(上周五)聲稱我們的結果是“缺乏完整性。“然後他們提出自己的基準,聲稱他們的提供大致相同的性能和價格267美元磚SQL 242美元。在票麵價值,這忽視了一個事實:他們的價格比較便宜的提供與我們最昂貴的SQL提供。(注意,雪花的業務關鍵層是2 x的成本便宜層)。他們也掩蓋了一個事實,即磚可以使用點的情況下,大多數的客戶使用,把價格降到146美元。beplay体育app下载地址但這並不是這篇文章的重點。

雪花的要點的說法是,他們跑相同的基準二元同步通信,發現他們可以運行整個3760年基準秒vs 8397秒,二元同步通信測量。他們甚至敦促讀者注冊一個賬戶,為自己試試。畢竟,TPC-DS數據集有雪花的盒子,他們甚至有一個教程如何運行它。所以它應該易於驗證結果。我們正是這樣做的。

首先,我們想讚揚之後我們的領導和雪花刪除德威特條款,禁止競爭對手基準測試他們的平台。Beplay体育安卓版本謝謝,我們可以得到一個試用帳號,並驗證“缺乏完整性”的說法的基礎。

繁殖TPC-DS在雪花

我們登錄到雪花,跑TPC-DS教程4。結果事實上密切匹配他們聲稱在4025秒,實際上遠遠超過8397秒的BSC基準。但接下來發生的事情更有趣。

在執行基準測試,我們發現雪花預焙TPC-DS數據集被重新創建我們的基準測試結果公布後兩天。官方基準的一個重要組成部分是驗證數據集的創建。而不是使用雪花的預先準備的數據集,我們上傳一個官方TPC-DS數據集,使用相同的模式,因為雪花使用預先準備的數據集(包括相同的聚集列集),在相同的集群大小(4 xl)。然後我們跑和定時能力測試三次。第一個冷運行了10085秒,最快的3分7276秒。隻是回顧一下,我們官方TPC-DS數據集加載到雪花,時間需要多長時間運行功率測試,1.9倍,時間長(3)的最佳比雪花在他們的博客。

這些結果可以很容易地驗證了任何人。得到一個雪花賬戶,使用官方TPC-DS腳本生成一個100 TB的數據倉庫。攝取這些文件到雪花。然後運行一些權力運行和測量時間。我們打賭的結果會更接近7000秒,甚至更高的數字如果你不使用集群列(見下一節)。你也可以在數據集上運行功率測試他們對雪花的船。這些結果可能會更接近他們的博客報道的時間。

為什麼官方TPC-DS

為什麼會有這麼大的差異在預先準備的數據集上運行TPC-DS雪花與官方數據集加載到雪花嗎?我們完全不知道。但是如何製定數據顯著影響TPC-DS,一般而言,工作負載。在大多數係統中,集群或分區數據為一個特定的工作負載(例如,排序字段用於查詢)的結合可以提高性能的工作量,但這樣的優化有額外費用。時間和成本需要包含在基準測試結果。

正是因為這一原因,官方基準需要報告所花費的時間負載數據進入數據倉庫,以便正確占任何時間和成本係統需要優化布局。這一次可以大大超過能力測試查詢一些存儲方案。官方還包括基準數據更新和維護,就像現實世界中的數據和工作負載(你多久查詢數據集,從不改變?)。這樣做都是為了防止下麵的場景:一個係統花費大量資源離線優化靜態數據集對於一組精確的不變的工作負載,然後可以運行這些工作負載超級快。

此外,官方基準需要再現性。這就是為什麼你可以找到的所有代碼複製我們的記錄提交

這給我們帶來了我們的最後一點。我們同意雪花,基準可以很快就變成了業內“添加配置旋鈕,特殊的設置,和非常具體的優化,改善基準”。每個人看起來都很好的在自己的基準。所以不要覺得任何一個供應商的單詞多好,我們挑戰雪花參與官方TPC基準。

Customer-obsessed基準測試

當我們決定參與這個基準測試的時候,我們為我們的工程團隊,他們應該設置一個約束通常隻使用應用優化通過幾乎所有我們的客戶,與過去的條目。beplay体育app下载地址他們不被允許申請任何優化,需要深入了解數據集或查詢(在雪花預先準備的數據集,額外的集群列)。這現實世界匹配工作負載和大多數客戶希望看到(一個係統,實現偉大的性能沒有調優)。beplay体育app下载地址

如果你閱讀我們提交詳細,你可以找到匹配的重現步驟一個典型的客戶想如何管理他們的數據。最小化努力生產新的數據集是我們的頂尖的設計目標之一為磚SQL。

結論

最後一個詞從我們在磚。作為合夥人,我們非常關心給我們的客戶提供最好的價值,我們構建和軟件來解決他們的業務需求。beplay体育app下载地址不產生共鳴的基準測試結果我們對世界的理解會導致一種情感或內髒反應。我們盡量不讓我們得到最好的人。我們將尋求真理,發布端到端可核查的結果。因此,我們不會指責雪花缺乏完整性的結果發表在他們的博客。我們隻問他們驗證結果與官方TPC理事會。

我們的主要動機參與官方的TPC基準數據倉庫並不是證明,數據倉庫是更快和更便宜。相反,我們相信,每一個企業都應該能夠成為FAANG公司數據驅動的方式。這些公司不建立在數據倉庫。他們有一個更簡單的數據策略:存儲所有數據(結構化、文本、視頻、音頻)打開格式和使用一個複製對各種分析,數據科學、機器學習、實時分析、或經典的商業智能和數據倉庫。他們不做任何事在SQL。而是,SQL是阿森納的關鍵工具之一,與Python, R,大量的其他工具的開源生態係統,利用他們的數據。我們稱之為範式數據Lakehouse。與數據倉庫,數據Lakehouse本地支持數據科學、機器學習、實時流。但它也有本機支持SQL和BI。我們的目標是消除數據的神話Lakehouse不能擁有一流的價格和性能。而不是讓自己的基準,我們尋求真理,參與官方的TPC基準。因此,我們都很高興數據Lakehouse範式在數據倉庫提供了優越的性能和價格,即使在典型的數據倉庫的工作負載(TPC-DS)。這將有利於企業不再需要維護多個數據湖泊、數據倉庫和流媒體係統來管理他們所有的數據。這個簡單的架構使他們重新部署資源解決業務需求和他們每天麵臨的問題。

免費試著磚

相關的帖子

看到所有公司博客上的帖子
Baidu
map