取消
顯示的結果
而不是尋找
你的意思是:

一點加速行操作Python UDF函數不使用熊貓UDF ProblemSpark不會自動並行化UDF操作小型/中型d…

Artem_Yevtushen
新的貢獻者三世

一點加速行操作Python UDF函數不使用熊貓UDF

問題

火花不會自動並行化小型/中型dataframes UDF操作。因此,火花將處理UDF作為一個非並行任務。一點的行操作操作,這可能是一個耗時的任務。

解決方案

迫使火花在可用的工人使用並行處理任務重新分區dataframe函數。

df = sql (“select * from表”)。重新分區() df = df.withColumn('column_name', python_udf(col('a_column')))

最佳性能使任務的數量等於最大可用的核心並行。

0回答0
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map