解決:Re:修複懸掛在磚-磚- 3242的任務

rgbuckley · ‎06-12-2023

我申請一個熊貓UDF的分組dataframe磚。當我這樣做時,幾個永遠任務掛起,而其餘迅速完成。

我開始重新分區數據集,每組一個分區:

group_factors = [' a ', ' b ', ' c '] #蒙麵匿名model_df = (df .repartition (num_cores #分區到馬克思的核心計算group_factors #分區由集團這樣一群總是在同一個分區))

我那組數據集和應用udf:

結果= (model_df #使用重新分區數據.groupBy (group_factors) #構建組織.applyInPandas (udf_tune、模式= result_schema) #適用於並行)#寫結果表來存儲參數results.write.mode(覆蓋).saveAsTable (table_name)

火花然後分裂成任務的數量等於分區。它成功運行兩個任務。這兩個任務不拋出錯誤,而是掛起,直到超時閾值。

奇怪的是,這些團體/任務似乎沒有任何違規行為。記錄大小類似於其他58任務完成。代碼不拋出任何錯誤,所以我們沒有輸入錯誤或格式化的數據。此外,實際上這個命令成功完成約20%的時間。但是大多數時候,我們被掛在一個或兩個任務,導致工作失敗。

stderr隻是指出,任務掛:

stdout指出一個配置錯誤(盡管包含相同的完成所有任務分配失敗的標準輸出文件):

任何建議如何避免掛任務問題?

注:當我減少我的數據大小(例如,model_df分裂成4小的子集,分組和應用在每個子集,並附加結果)我不會遇到這個問題。

匿名 · ‎06-14-2023

@Gary巴克利:

掛任務問題你經曆的熊貓UDF磚可以由各種因素造成的。這裏有一些建議來幫助您診斷和解決潛在的問題:

增加超時:掛任務可能與更長的處理時間對特定群體。你可以增加你的工作給這些任務超時閾值更多的時間完成之前被認為是失敗了。你可以設置使用spark.databricks.sql.execution超時。pythonUDFTimeout配置參數。
檢查資源約束:掛任務可以計算集群資源限製的結果。監控工作執行過程中資源的使用,包括CPU、內存和磁盤利用率。如果掛任務總是發生在特定的節點,它可以顯示這些節點的資源約束。考慮調整集群配置分配更多的資源來緩解任何瓶頸。
調查數據特點:檢查的數據特征組經驗掛任務。尋找任何模式或異常的數據可能會導致性能問題。例如,如果某些群體明顯更大或更複雜的數據,它可以影響執行時間。分析數據分布和結構可以幫助識別潛在的原因。
檢查數據傾斜:數據傾斜時幾組明顯比其他人更多的數據,導致不平衡處理。傾斜的數據分布會導致一些任務將比其他人更長的時間來完成。使用磚的內置數據傾斜優化技術,如斜()函數,以減輕數據偏態的影響。

在原帖子查看解決方案

Lakshay · ‎06-13-2023

從一個執行人的stdout日誌或從運行的任務是司機嗎?

rgbuckley · ‎06-13-2023

stdout和stderr來自運行任務的執行者

匿名 · ‎06-14-2023

@Gary巴克利:

掛任務問題你經曆的熊貓UDF磚可以由各種因素造成的。這裏有一些建議來幫助您診斷和解決潛在的問題:

增加超時:掛任務可能與更長的處理時間對特定群體。你可以增加你的工作給這些任務超時閾值更多的時間完成之前被認為是失敗了。你可以設置使用spark.databricks.sql.execution超時。pythonUDFTimeout配置參數。
檢查資源約束:掛任務可以計算集群資源限製的結果。監控工作執行過程中資源的使用,包括CPU、內存和磁盤利用率。如果掛任務總是發生在特定的節點,它可以顯示這些節點的資源約束。考慮調整集群配置分配更多的資源來緩解任何瓶頸。
調查數據特點:檢查的數據特征組經驗掛任務。尋找任何模式或異常的數據可能會導致性能問題。例如,如果某些群體明顯更大或更複雜的數據,它可以影響執行時間。分析數據分布和結構可以幫助識別潛在的原因。
檢查數據傾斜:數據傾斜時幾組明顯比其他人更多的數據,導致不平衡處理。傾斜的數據分布會導致一些任務將比其他人更長的時間來完成。使用磚的內置數據傾斜優化技術,如斜()函數,以減輕數據偏態的影響。

Vidula_Khanna · ‎06-14-2023

嗨@Gary巴克利

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

磚

在磚修複掛任務