解決:PySpark UDF是采取長期的過程-磚- 7794

桑傑 · ‎03-13-2023

你好,

我UDF將為每個火花dataframe行,做一些複雜的處理並返回字符串輸出。但這需要很長時間,如果數據是15000行。我已經配置了集群自動定量,但其不旋轉的更多的服務器。

請建議如何使UDF絕食者或任何參考實現。

問候,

桑傑

Lakshay · ‎03-14-2023

嗨@Sanjay Jain, Python udf通常是慢的過程,因為它主要是在運行驅動程序也可以導致伯父錯誤驅動程序。為了解決這個問題,請考慮以下:

pvignesh92 · ‎03-13-2023

@Sanjay Jain嗨桑傑。你沒有提到什麼樣的處理在UDF。Python UDF肯定會造成性能問題引發優化器不適用UDF中你所做的優化。請看看你可以做任何的處理使用火花本機函數。

如果仍然需要使用python UDF,看看你是否可以嚐試與熊貓UDF。這可以為特定類型的操作提供顯著的性能改進。熊貓udf使用Apache箭頭Python和火花之間傳輸數據,從而導致更快的處理時間。

Rishabh264 · ‎03-13-2023

寫……是否可以執行同樣的事情用pyspark本地邏輯與功能則不需要使用一個UDF。因為在大多數情況下,我們可以通過使用pyspark也因為UDF肯定會創建一個性能問題

Lakshay · ‎03-14-2023

嗨@Sanjay Jain, Python udf通常是慢的過程,因為它主要是在運行驅動程序也可以導致伯父錯誤驅動程序。為了解決這個問題,請考慮以下:

Kaniz · ‎03-18-2023

嗨@Sanjay耆那教的,我們沒有收到你自從上次反應@Lakshay高爾,@rishabh和@Vigneshraja Palaniraj,我檢查看看他們的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。