取消
顯示的結果
而不是尋找
你的意思是:

性能pyspark dataframe使用@pandas_udf後非常緩慢

RRO
貢獻者

你好,

我目前工作與FBProphet時間序列預測。因為我有許多時間序列數據組(3000年~)我用@pandas_udf並行化培訓。

@pandas_udf(模式,PandasUDFType.GROUPED_MAP) def forecast_netprofit (prophtrain):……返回results_pd time_series_id_column_names = [‘Grp1’,‘Grp2’,‘Grp3]結果= (prophtrain .groupby (time_series_id_column_names)蘋果(forecast_netprofit))

現在每次我想顯示或做一些操作結果dataframe性能很低。例如:先顯示1000行時間約為6分鍾。

有原因的性能結果是如此的緩慢,我能解決這個問題嗎?

1接受解決方案

接受的解決方案

RRO
貢獻者

謝謝你的答案。

不幸的是這沒有解決性能問題。

現在我做的是我保存的結果為一個表:

results.write.mode(“覆蓋”).saveAsTable (“db.results”)

這可能不是最好的解決方案,但這樣做後我可以處理結果的數據表。

在原帖子查看解決方案

7回複7

werners1
尊敬的貢獻者三世

火花將運行在整個數據集在後台並返回1000行。所以它可能是,不一定是函數本身。

您可以測試到遠東從1000條記錄的數據集和應用功能。

RRO
貢獻者

好了,數據集有大約80.000行和12列,所以它不應該處理。我有不同的數據集,是比,可以在幾秒內顯示。這就是為什麼我認為它可能會以某種方式相關的函數…

werners1
尊敬的貢獻者三世

可以,盡管它應該使用箭頭。

你用的是什麼版本的火花嗎?

磚的運行時版本:10.3毫升(包括Apache火花3.2.1之上,Scala 2.12)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map