你好,
我聯係你,因為我有一個問題我的筆記本在磚的性能。
我的筆記本是用python寫(pypark)我讀了δ表,我複製dataframe和做一些轉換和創建多個列(我有幾個不同dataframes創建它)。創建幾個coumnas我已經創建了一個函數庫,以初始dataframe作為輸入,並返回相同的dataframe新列。
我不能避免使用功能但我的筆記本的執行時間大大增加了。
我讀過他們火花的司機節點上執行的應用程序,而不是工人節點數據是分布的,這是他們更慢的原因。
這是我的集群的配置:
司機節點是相當大的,我還添加了配置:spark.databricks.io.cache。真正的啟用。
我處理大約1500萬條記錄。
有什麼我能做的來提高性能?任何額外的設置我失蹤,幫助我的筆記本跑得更快嗎?現在它是一個半小時。
非常感謝你在先進。
你可以使用內存分析器配置文件UDF。這將幫助我們理解的哪一部分UDF導致內存利用率高,在執行多個調用。
//www.eheci.com/blog/2022/11/30/memory-profiling-pyspark.html