取消
顯示的結果
而不是尋找
你的意思是:

在磚修複掛任務

rgbuckley
新的貢獻者三世

我申請一個熊貓UDF的分組dataframe磚。當我這樣做時,幾個永遠任務掛起,而其餘迅速完成。

我開始重新分區數據集,每組一個分區:

group_factors = [' a ', ' b ', ' c '] #蒙麵匿名model_df = (df .repartition (num_cores #分區到馬克思的核心計算group_factors #分區由集團這樣一群總是在同一個分區))

我那組數據集和應用udf:

結果= (model_df #使用重新分區數據.groupBy (group_factors) #構建組織.applyInPandas (udf_tune、模式= result_schema) #適用於並行)#寫結果表來存儲參數results.write.mode(覆蓋).saveAsTable (table_name)

火花然後分裂成任務的數量等於分區。它成功運行兩個任務。這兩個任務不拋出錯誤,而是掛起,直到超時閾值。

計算集群的火花UI

奇怪的是,這些團體/任務似乎沒有任何違規行為。記錄大小類似於其他58任務完成。代碼不拋出任何錯誤,所以我們沒有輸入錯誤或格式化的數據。此外,實際上這個命令成功完成約20%的時間。但是大多數時候,我們被掛在一個或兩個任務,導致工作失敗。

stderr隻是指出,任務掛:

stderr掛任務

stdout指出一個配置錯誤(盡管包含相同的完成所有任務分配失敗的標準輸出文件):

stdout掛任務

任何建議如何避免掛任務問題?

注:當我減少我的數據大小(例如,model_df分裂成4小的子集,分組和應用在每個子集,並附加結果)我不會遇到這個問題。

5回複5

rgbuckley
新的貢獻者三世

謝謝你Suteja。我看了資源和從未達到的任何能力。跨分區數據均勻分布和組。我最終在(1)采取你的建議。我設置一個計時器,殺了這個過程如果集團花了太長時間,就使用默認值。

謝謝你的幫助。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map