取消
顯示的結果
而不是尋找
你的意思是:

使用Pyspark成倍增長較慢的連接

datatello
新的貢獻者二世

Pyspark我新,但我偶然發現了一個奇怪的問題當我執行連接,似乎采取的行動指數再每次添加一個新加入一個我寫的函數。

我想加入一個數據集1700萬~ 300萬條記錄的~十次(每次加入標準略有不同)。每個加入自己的需要15-50秒承諾,然而當我添加連接在一起的一個函數,行動花費的時間指數(e。g加入2運行在一分鍾,但通過加入5功能大約需要11分鍾,加入7/8筆記本跑上幾個小時,然後給出一個通用的集群錯誤)。

我以前試過重新分區和緩存數據連接,但如果任何這似乎進一步減緩連接。

我不能自己做錯了什麼,和qa筆記本的每一行,沒有明顯的跳躍。

3回複3

werners1
尊敬的貢獻者三世

可能有些錯誤在你的函數。

我的建議是首先執行手動連接並運行一個查詢計劃的解釋。

比比較查詢計劃創建的一個函數。

特別是如果你做了一個循環在你的函數,它可能是罪魁禍首。

jose_gonzalez
主持人
主持人

嗨@Lee畢弗,

你用的哪個DBR版本?你能分享一些代碼片段嗎?你能共享物理查詢計劃嗎?熟練的技藝?

Vidula
尊敬的貢獻者

嗨@Lee畢弗

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map