一點加速行操作Python UDF函數不使用熊貓UDF
問題
火花不會自動並行化小型/中型dataframes UDF操作。因此,火花將處理UDF作為一個非並行任務。一點的行操作操作,這可能是一個耗時的任務。
解決方案
迫使火花在可用的工人使用並行處理任務重新分區dataframe函數。
df = sql (“select * from表”)。重新分區() df = df.withColumn('column_name', python_udf(col('a_column')))
最佳性能使任務的數量等於最大可用的核心並行。