取消
顯示的結果
而不是尋找
你的意思是:

糟糕的性能udf功能

SaraCorralLou
新的貢獻者三世

你好,

我聯係你,因為我有一個問題我的筆記本在磚的性能。

我的筆記本是用python寫(pypark)我讀了δ表,我複製dataframe和做一些轉換和創建多個列(我有幾個不同dataframes創建它)。創建幾個coumnas我已經創建了一個函數庫,以初始dataframe作為輸入,並返回相同的dataframe新列。

我不能避免使用功能但我的筆記本的執行時間大大增加了。

我讀過他們火花的司機節點上執行的應用程序,而不是工人節點數據是分布的,這是他們更慢的原因。

這是我的集群的配置:

saracorrallou_0 - 1692357805407. - png

司機節點是相當大的,我還添加了配置:spark.databricks.io.cache。真正的啟用。

我處理大約1500萬條記錄。

有什麼我能做的來提高性能?任何額外的設置我失蹤,幫助我的筆記本跑得更快嗎?現在它是一個半小時。

非常感謝你在先進。

1回複1

Tharun-Kumar
尊敬的貢獻者
尊敬的貢獻者

@SaraCorralLou

你可以使用內存分析器配置文件UDF。這將幫助我們理解的哪一部分UDF導致內存利用率高,在執行多個調用。

//www.eheci.com/blog/2022/11/30/memory-profiling-pyspark.html

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map