取消
顯示的結果
而不是尋找
你的意思是:

如何處理一個大的三角洲和UDF表嗎?

康斯坦丁
貢獻者三世

我有一個δ約有3000億行的表。現在我列上執行一些操作使用UDF和創建另一個列

我的代碼是這樣的

def my_udf(數據):返回通過udf_func = udf (my_udf, StringType ()) data =火花。sql (" " " SELECT * FROM large_table " ") =數據。withColumn (new_column, udf_func (data.value))

現在的問題是這花很長時間,因為火花將處理所有3000億行,然後寫輸出。有沒有一種方法,我們可以做一些Mirco配料和寫輸出的定期輸出差值表嗎

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

udf代碼將運行在司機所以最好不要用這麼大的數據集。你需要的是矢量化熊貓udfhttps://docs.www.eheci.com/spark/latest/spark-sql/udf-python-pandas.html

在原帖子查看解決方案

1回複1

Hubert_Dudek1
尊敬的貢獻者三世

udf代碼將運行在司機所以最好不要用這麼大的數據集。你需要的是矢量化熊貓udfhttps://docs.www.eheci.com/spark/latest/spark-sql/udf-python-pandas.html

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map