優化(Databricks SQL)

優化三角洲湖數據的布局。可選地優化數據的子集或列列進行數據集合。如果您不指定托管,則進行BIN包裝優化。

句法

優化table_name[[在哪裏謂詞這是給予的[[Zorder經過((col_name1[,,...這是給予的這是給予的

筆記

  • bin包裝優化是願意,這意味著如果它在同一數據集上兩次運行,則第二次運行沒有效果。它旨在就磁盤上的大小生成均值平衡的數據文件,但不一定是每個文件的數量。但是,這兩個措施通常是相關的。

  • z訂購是不掌握但是,目標是增量操作。不能保證在多次運行中減少Z訂購所需的時間。但是,如果沒有將新數據添加到僅Z訂單的分區中,則該分區的另一個Z順序將不會產生任何效果。它旨在就元素數量生成均衡的數據文件,但不一定是磁盤上的數據大小。這兩個措施通常是相關的,但是在情況並非如此的情況下,可能會導致偏斜以優化任務時間。

參數

  • table_name

    標識現有的三角洲表。該名稱不得包括一個時間規範

  • 在哪裏

    優化匹配給定分區謂詞的行的子集。僅支持涉及分區關鍵屬性的過濾器。

  • Zorder經過

    在同一組文件中加入列信息。Delta Lake數據滑動算法使用共同局部性來大大減少需要讀取的數據量。您可以為多列指定Zorder經過作為逗號分隔的列表。但是,區域的有效性隨著每個附加列而下降。

例子

優化事件優化事件在哪裏日期> ='2017-01-01'優化事件在哪裏日期> =Current_timestamp()-間隔1Zorder經過((事件類型

有關有關優化命令,請參閱通過文件管理優化性能