使用Pyspark -磚- 11906指數較慢的連接

datatello · ‎07-29-2022

Pyspark我新,但我偶然發現了一個奇怪的問題當我執行連接,似乎采取的行動指數再每次添加一個新加入一個我寫的函數。

我想加入一個數據集1700萬~ 300萬條記錄的~十次(每次加入標準略有不同)。每個加入自己的需要15-50秒承諾,然而當我添加連接在一起的一個函數,行動花費的時間指數(e。g加入2運行在一分鍾,但通過加入5功能大約需要11分鍾,加入7/8筆記本跑上幾個小時,然後給出一個通用的集群錯誤)。

我以前試過重新分區和緩存數據連接,但如果任何這似乎進一步減緩連接。

我不能自己做錯了什麼,和qa筆記本的每一行,沒有明顯的跳躍。

werners1 · ‎08-01-2022

可能有些錯誤在你的函數。

我的建議是首先執行手動連接並運行一個查詢計劃的解釋。

比比較查詢計劃創建的一個函數。

特別是如果你做了一個循環在你的函數,它可能是罪魁禍首。

jose_gonzalez · ‎08-17-2022

嗨@Lee畢弗,

你用的哪個DBR版本?你能分享一些代碼片段嗎?你能共享物理查詢計劃嗎?熟練的技藝?

Vidula · ‎09-06-2022

嗨@Lee畢弗

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

磚