03-13-2023上午10:45
你好,
我UDF將為每個火花dataframe行,做一些複雜的處理並返回字符串輸出。但這需要很長時間,如果數據是15000行。我已經配置了集群自動定量,但其不旋轉的更多的服務器。
請建議如何使UDF絕食者或任何參考實現。
問候,
桑傑
03-14-2023淩晨5點
嗨@Sanjay Jain, Python udf通常是慢的過程,因為它主要是在運行驅動程序也可以導致伯父錯誤驅動程序。為了解決這個問題,請考慮以下:
在原帖子查看解決方案
03-13-202322點
@Sanjay Jain嗨桑傑。你沒有提到什麼樣的處理在UDF。Python UDF肯定會造成性能問題引發優化器不適用UDF中你所做的優化。請看看你可以做任何的處理使用火花本機函數。
如果仍然需要使用python UDF,看看你是否可以嚐試與熊貓UDF。這可以為特定類型的操作提供顯著的性能改進。熊貓udf使用Apache箭頭Python和火花之間傳輸數據,從而導致更快的處理時間。
03-13-202301:22點
寫……是否可以執行同樣的事情用pyspark本地邏輯與功能則不需要使用一個UDF。因為在大多數情況下,我們可以通過使用pyspark也因為UDF肯定會創建一個性能問題
03-18-202303:38我
嗨@Sanjay耆那教的,我們沒有收到你自從上次反應@Lakshay高爾,@rishabh和@Vigneshraja Palaniraj,我檢查看看他們的建議幫助你。
否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。
同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。