取消
顯示的結果
而不是尋找
你的意思是:

PySpark UDF是采取長期的過程

桑傑
價值貢獻

你好,

我UDF將為每個火花dataframe行,做一些複雜的處理並返回字符串輸出。但這需要很長時間,如果數據是15000行。我已經配置了集群自動定量,但其不旋轉的更多的服務器。

請建議如何使UDF絕食者或任何參考實現。

問候,

桑傑

1接受解決方案

接受的解決方案

Lakshay
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨@Sanjay Jain, Python udf通常是慢的過程,因為它主要是在運行驅動程序也可以導致伯父錯誤驅動程序。為了解決這個問題,請考慮以下:

  1. 使用火花內置函數相同的功能。
  2. 用熊貓UDF代替python UDF。
  3. 如果上麵兩個選擇不合適,使用配置:spark.databricks.execution.pythonUDF.arrow。啟用= True

在原帖子查看解決方案

4回複4

pvignesh92
尊敬的貢獻者

@Sanjay Jain嗨桑傑。你沒有提到什麼樣的處理在UDF。Python UDF肯定會造成性能問題引發優化器不適用UDF中你所做的優化。請看看你可以做任何的處理使用火花本機函數。

如果仍然需要使用python UDF,看看你是否可以嚐試與熊貓UDF。這可以為特定類型的操作提供顯著的性能改進。熊貓udf使用Apache箭頭Python和火花之間傳輸數據,從而導致更快的處理時間。

Rishabh264
尊敬的貢獻者二世

寫……是否可以執行同樣的事情用pyspark本地邏輯與功能則不需要使用一個UDF。因為在大多數情況下,我們可以通過使用pyspark也因為UDF肯定會創建一個性能問題

Lakshay
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨@Sanjay Jain, Python udf通常是慢的過程,因為它主要是在運行驅動程序也可以導致伯父錯誤驅動程序。為了解決這個問題,請考慮以下:

  1. 使用火花內置函數相同的功能。
  2. 用熊貓UDF代替python UDF。
  3. 如果上麵兩個選擇不合適,使用配置:spark.databricks.execution.pythonUDF.arrow。啟用= True

Kaniz
社區經理
社區經理

嗨@Sanjay耆那教的,我們沒有收到你自從上次反應@Lakshay高爾,@rishabh和@Vigneshraja Palaniraj,我檢查看看他們的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map