你好,我是非常新的磚和MLflow。我麵對問題運行工作。當工作是運行時,它通常會失敗,重試本身,所以它又運行時間,即。通常,從6小時12 - 18小時。
錯誤日誌,它表明錯誤來自於這一點。
# df_master_scored = df_master_scored。加入(df_master (“du_spine_primary_key”),如何=“左”)df_master_scored.write.format .mode(“δ”)(“覆蓋”)。saveAsTable (delta_table_schema +”。l5_du_scored_”+ control_group)
此外,我發現的錯誤通常顯示是這樣的:
Py4JJavaError:調用o36819.saveAsTable時發生一個錯誤。:org.apache.spark。SparkException:工作中止。
然後,它顯示的原因:
引起的:org.apache.spark。SparkException:工作階段失敗而終止:任務6階段349.0失敗了4次,最近的失敗:在舞台上失去了任務6.3 349.0 (TID 128171、10.0.2.18執行人22):org.apache.spark.api.python。PythonException:“mlflow.exceptions。MlflowException: API請求https://southeastasia.azuredatabricks.net/api/2.0/mlflow/runs/search失敗與異常HTTPSConnectionPool(主機= ' southeastasia.azuredatabricks.net ',端口= 443):馬克斯重試超過url: / api / 2.0 / mlflow /運行/搜索(ResponseError所致(太多的429錯誤響應))”。
有時,導致這樣的改變(但隻顯示最新的工作運行):
引起的:org.apache.spark。SparkException:工作階段失敗而終止:任務13階段366.0失敗了4次,最近的失敗:在舞台上失去了任務13.3 366.0 (TID 128315、10.0.2.7執行人19):ExecutorLostFailure(執行人19退出正在運行的任務之一所致)原因:遺囑執行人心跳153563毫秒後超時
我不知道如何解決這個問題。這將是MLflow相關問題。無論如何,它增加很多成本。
解決這個問題的建議嗎?