跳轉到主要內容
工程的博客

引入攝入時間聚類磚SQL和磚11.2運行時

快19倍查詢性能的開箱即用
分享這篇文章

磚客戶處理超過1 ebbeplay体育app下载地址的數據每天都在磚Lakehouse的平台上使用Beplay体育安卓版本三角洲湖,大量的是基於時間序列的數據。如此大量的數據是需要客戶來優化他們的表進行讀寫性能,這通常是由分區表或使用beplay体育app下载地址優化ZORDER由。這些優化改變表的數據組織,這樣可以有效地檢索和更新數據,通過聚類數據和啟用數據不。雖然有效,但這些技術需要大量用戶努力達到最佳的讀和寫他們的表的查詢性能。此外,他們通過重寫數據招致額外的處理成本。

在磚,我們的一個關鍵目標是為客戶提供行業領先的查詢性能的開箱即用,不需要任何額外的配置和優化。beplay体育app下载地址在每個用例中,磚努力減少用戶操作和配置要求達到最好的讀和寫查詢性能。

為我們的客戶提供基於時間序列的beplay体育app下载地址事實表與優化查詢性能的盒子,我們興奮地介紹攝入時間聚類。攝入時間聚類是數據磚寫優化,使自然集群基於數據攝取的時間。通過這樣做,它不需要為客戶優化布局的時序事實表,提供大數據跳過的。beplay体育app下载地址在這個博客中,我們將深入探究與三角洲集群的數據相關的挑戰,我們如何解決這些問題在攝入時間聚類,和實際的查詢性能結果攝入時間群集表。

挑戰與數據聚類

今天,三角洲湖提供客戶兩個強大的技術來優化數據布局beplay体育app下载地址更好的性能:分區z值。這些優化的數據布局可以顯著降低查詢需要讀取的數據量,減少每個操作的時間掃描表。

盡管分區和z值的查詢性能是重要的,一些客戶已經很難實現或者維護這些優化。beplay体育app下载地址許多客戶有beplay体育app下载地址問題關於使用哪個列,還是多久z順序表,當分區是有用的或有害的。客戶解決這些問題,我們旨在為客戶提供這些優化的沒有任何用戶操作。beplay体育app下载地址

引入攝入時間聚類

我們的團隊執行查詢任務去找出這個開箱即用的解決方案,適用於盡可能多的三角洲表。所以我們跳水深入分析和證據收集的數據。

我們注意到大多數數據逐步消化,自然常常是按時間排序。想象一下,例如,一個網絡公司,接受他們的訂單數據存儲到三角洲湖每天將以時間為順序的方式這樣做。這是確認的事實51%的分區表被分區的日期/時間,同樣的z值。此外,我們也看到,超過三分之二的在磚使用日期/時間列的查詢謂詞或連接鍵。

日期/時間的首選方法是分區和δz值。
日期/時間的首選方法是分區和δz值。

在此基礎上分析,我們還發現最簡單的解決方案是,經常是這樣,最有效的一個。我們可以集群數據基於訂單所有表的默認數據攝取。雖然這是一個偉大的解決方案,我們發現數據操作命令的用法,如合並或刪除,和壓實命令,如優化,隨著時間的推移會導致這個集群丟失。這損失所需的聚類客戶運行z值經常保持良好的集群和獲得良好的查詢性能beplay体育app下载地址。

為了解決這些挑戰,我們決定引入聚類攝入時間,一個新的為三角洲表編寫優化。攝入時間集群地址的許多挑戰客戶分區和z值。beplay体育app下载地址它是開箱即用的,不需要用戶操作保持自然聚集表使用日期/時間謂詞時更快的查詢性能。

攝入時間聚類是什麼?

攝入時間聚類是什麼?攝入時間聚類確保集群表總是由攝入時間,能夠顯著提高查詢性能通過數據跳過對於濾波器按日期或時間的查詢,顯著減少文件的數量需要閱讀來回答查詢。

攝入時間聚類確保數據保持在攝入的順序,顯著改善聚類。
攝入時間聚類確保數據保持在攝入的順序,顯著改善聚類。

我們已經顯著改善了聚類保存合並從磚10.4運行時使用我們新的開始低洗牌合並實現。作為攝入時間集群的一部分,我們保證其他操作和維護命令,如刪除、更新和優化,也保存了攝入來為客戶提供一致的和顯著的性能收益。beplay体育app下载地址除了保持攝入的順序,我們還需要確保我們所做的額外工作及時攝取秩序不會降低攝入的性能。以下基準將顯示準確,使用一個真實的場景。

大型在線零售商基準- 19 x改進!

與我們合作一個大型網上零售客戶建立一個基準,代表他們的分析數據。在這個客戶場景中,生成銷售記錄發生時,攝取到事實表。大多數查詢這個表返回聚合某個時間段內的銷售記錄,一個共同的和廣泛適用的模式在任何基於時間的分析工作負載。基準測量時間攝取新的數據,進行刪除操作時,和各種SELECT查詢,所有運行順序來驗證攝入時間聚類的聚類保護功能。

結果表明,攝入沒有看到退化與攝入時間聚類性能盡管額外的工作參與維護集群。刪除和SELECT查詢,另一方麵,看到顯著的性能收益。沒有攝入時間聚類,DELETE語句拆除目標集群和簡化數據跳過效率,減緩任何後續SELECT查詢的基準。隨著時間攝入集群被保存下來,SELECT查詢顯著的性能收益平均19 x,顯著減少所需的時間查詢的表保存目標集群在最初的攝入。

基準測試顯示,查詢性能顯著改善雖然沒有攝取性能退化。
基準測試顯示,查詢性能顯著改善雖然沒有攝取性能退化。

開始

我們非常興奮為客戶體驗的開箱即用的性能優勢攝入時beplay体育app下载地址間聚類。攝入時間聚類是默認啟用磚11.2運行時磚的SQL(版本2022.35及以上)。所有分區表將自動從攝入時間聚類新數據攝取。我們不建議客戶下的分區表1beplay体育app下载地址 tb大小和日期/時間戳列上讓攝入時間集群自動生效。

免費試著磚

相關的帖子

看到所有工程的博客的帖子
Baidu
map