錯誤在運行工作磚頁2 -磚- 12604

石磊 · ‎07-25-2022

你好,我是非常新的磚和MLflow。我麵對問題運行工作。當工作是運行時,它通常會失敗,重試本身,所以它又運行時間,即。通常,從6小時12 - 18小時。

錯誤日誌,它表明錯誤來自於這一點。

# df_master_scored = df_master_scored。加入(df_master (“du_spine_primary_key”),如何=“左”)df_master_scored.write.format .mode(“δ”)(“覆蓋”)。saveAsTable (delta_table_schema +”。l5_du_scored_”+ control_group)

此外,我發現的錯誤通常顯示是這樣的:

Py4JJavaError:調用o36819.saveAsTable時發生一個錯誤。:org.apache.spark。SparkException:工作中止。

然後,它顯示的原因:

引起的:org.apache.spark。SparkException:工作階段失敗而終止:任務6階段349.0失敗了4次,最近的失敗:在舞台上失去了任務6.3 349.0 (TID 128171、10.0.2.18執行人22):org.apache.spark.api.python。PythonException:“mlflow.exceptions。MlflowException: API請求https://southeastasia.azuredatabricks.net/api/2.0/mlflow/runs/search失敗與異常HTTPSConnectionPool(主機= ' southeastasia.azuredatabricks.net ',端口= 443):馬克斯重試超過url: / api / 2.0 / mlflow /運行/搜索(ResponseError所致(太多的429錯誤響應))”。

有時,導致這樣的改變(但隻顯示最新的工作運行):

引起的:org.apache.spark。SparkException:工作階段失敗而終止:任務13階段366.0失敗了4次,最近的失敗:在舞台上失去了任務13.3 366.0 (TID 128315、10.0.2.7執行人19):ExecutorLostFailure(執行人19退出正在運行的任務之一所致)原因:遺囑執行人心跳153563毫秒後超時

我不知道如何解決這個問題。這將是MLflow相關問題。無論如何,它增加很多成本。

解決這個問題的建議嗎?

Vidula · ‎09-05-2022

嘿@Tanawat Benchasirirot

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

磚

在磚的工作運行時錯誤