取消
顯示的結果
而不是尋找
你的意思是:

三角洲表加速度對鍵列使用group by ZORDER不工作

chanansh
貢獻者

加速查詢的最佳實踐是什麼看起來像下麵的哪一個?

贏得= Window.partitionBy (key1, key2) .orderBy df(“時間戳”)。選擇(“時間戳”,(F.col (col1) - F.lag (col1) .over(贏得)).alias (col1_diff))

我嚐試使用優化表ZORDER key1, key2但它不工作。

有很多的洗牌。數據分區按日期生成的列的時間戳。

2回答2

匿名
不適用

@Hanan Shteingart:與窗函數優化查詢,你應該試著多-過濾數據,減少窗口中使用的列數,優化窗口分區和訂購,如果需要增加集群的大小。請嚐試以下選項

  1. 過濾數據集df申請前窗函數
  2. 減少的數量列在df應用窗口函數
  3. 分區dataframe df通過選擇正確的分區鍵的數量減少分區和數據均勻地分配到各分區
  4. 選擇一個排序鍵減少需要排序的數據量和加工
  5. 最後,增加集群的大小來分配更多的計算資源的查詢

Vidula_Khanna
主持人
主持人

嗨@Hanan Shteingart

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map