取消
顯示的結果
而不是尋找
你的意思是:

在磚的工作運行時錯誤

石磊
新的貢獻者二世

你好,我是非常新的磚和MLflow。我麵對問題運行工作。當工作是運行時,它通常會失敗,重試本身,所以它又運行時間,即。通常,從6小時12 - 18小時。

失敗的圖片

錯誤日誌,它表明錯誤來自於這一點。

# df_master_scored = df_master_scored。加入(df_master (“du_spine_primary_key”),如何=“左”)df_master_scored.write.format .mode(“δ”)(“覆蓋”)。saveAsTable (delta_table_schema +”。l5_du_scored_”+ control_group)

此外,我發現的錯誤通常顯示是這樣的:

Py4JJavaError:調用o36819.saveAsTable時發生一個錯誤。:org.apache.spark。SparkException:工作中止。

然後,它顯示的原因:

引起的:org.apache.spark。SparkException:工作階段失敗而終止:任務6階段349.0失敗了4次,最近的失敗:在舞台上失去了任務6.3 349.0 (TID 128171、10.0.2.18執行人22):org.apache.spark.api.python。PythonException:“mlflow.exceptions。MlflowException: API請求https://southeastasia.azuredatabricks.net/api/2.0/mlflow/runs/search失敗與異常HTTPSConnectionPool(主機= ' southeastasia.azuredatabricks.net ',端口= 443):馬克斯重試超過url: / api / 2.0 / mlflow /運行/搜索(ResponseError所致(太多的429錯誤響應))”。

有時,導致這樣的改變(但隻顯示最新的工作運行):

引起的:org.apache.spark。SparkException:工作階段失敗而終止:任務13階段366.0失敗了4次,最近的失敗:在舞台上失去了任務13.3 366.0 (TID 128315、10.0.2.7執行人19):ExecutorLostFailure(執行人19退出正在運行的任務之一所致)原因:遺囑執行人心跳153563毫秒後超時

我不知道如何解決這個問題。這將是MLflow相關問題。無論如何,它增加很多成本。

解決這個問題的建議嗎?

5回複5

werners1
尊敬的貢獻者三世

你能嚐試用.option (“overwriteSchema”,“真正的”)

石磊
新的貢獻者二世

好的,我已經添加了。今晚讓我們看看結果。:grinning_face:

石磊
新的貢獻者二世

我剛剛檢查了昨晚的工作運行。它似乎沒有幫助。我仍然麵臨同樣的錯誤和工作自動重試一次。

job_retry

werners1
尊敬的貢獻者三世

我認為你需要調試你的筆記本看實際出現的問題。

彈出的錯誤在寫作這些數據,因為這是一個行動(和火花代碼隻執行一個動作)。

但錯誤的原因似乎是上遊的地方。

所以嚐試,告訴或顯示(df)細胞通過細胞看到你得到一個錯誤的地方。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map