Pyspark我新,但我偶然發現了一個奇怪的問題當我執行連接,似乎采取的行動指數再每次添加一個新加入一個我寫的函數。
我想加入一個數據集1700萬~ 300萬條記錄的~十次(每次加入標準略有不同)。每個加入自己的需要15-50秒承諾,然而當我添加連接在一起的一個函數,行動花費的時間指數(e。g加入2運行在一分鍾,但通過加入5功能大約需要11分鍾,加入7/8筆記本跑上幾個小時,然後給出一個通用的集群錯誤)。
我以前試過重新分區和緩存數據連接,但如果任何這似乎進一步減緩連接。
我不能自己做錯了什麼,和qa筆記本的每一行,沒有明顯的跳躍。