如何在數據集和基於數據框架的連接命令中指定傾斜提示

在Databricks中學習如何在數據集和基於數據幀的連接命令中指定傾斜提示。

寫的亞當Pavlacka

最後發布日期:2022年5月31日

當你執行加入命令DataFrame數據集對象,如果您發現查詢被卡在完成少量的任務,由於數據傾斜,屬性指定傾斜提示提示(“斜”)方法:df.hint(“斜”).傾斜連接優化(AWS|Azure|GCP)在DataFrame提示。

除了基本提示外,還可以指定提示方法,使用以下參數組合:列名、列名列表以及列名和傾斜值。

  • DataFrame和列名。控件的指定列上執行傾斜連接優化DataFrame
    python df %。提示("skew", "col1")
  • DataFrame多列。對象中的多個列執行傾斜連接優化DataFrame
    python df %。提示("skew", ["col1","col2"])
  • DataFrame、列名和傾斜值。對具有傾斜值的列中的數據執行傾斜連接優化。
    python df %。提示("skew", "col1", "value")

例子

這個例子展示了如何為多個對象指定傾斜提示DataFrame中涉及的對象加入操作:

% scala val joinResults = ds1.hint(“斜”)。as(“L”). join (ds2.hint(“斜”)。as (R)、“L美元。col1" === $"R.col1")