取消
顯示的結果
而不是尋找
你的意思是:

集群偶爾未能啟動

elikvar
新的貢獻者三世

我有一個每日跑步的筆記本,偶爾失敗與錯誤:

“運行結果不可用:任務失敗和錯誤消息

意想不到的失敗在等待集群((xxxxxxxxxxxxxxx)) readySome(:集群xxxxxxxxxxxxxxxx意想不到的狀態終止:CONTAINER_LAUNCH_FAILURE (SERVICE_FAULT)即instance_id: ixxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx, databricks_error_message:未能推出火花i-xxxxxxxxxxxxxxxxxxxx容器實例。例外:意想不到的內部錯誤,請聯係磚支持)。”

從我得到這個信息:事件日誌(“集群終止。原因:容器啟動失敗。時是遇到意外錯誤啟動容器對工人實例的集群。如果問題仍然存在請重試和接觸磚。”)

這個錯誤通常發生每隔4 - 5天,沒有工作日誌。也奇怪的是運行時間仍然是像筆記本一樣運行。有人遇到過這個問題嗎?

9回複9

匿名
不適用

@Eli Kvarfordt:

這個錯誤消息表明,火花集裝箱未能推出的工人實例集群中,可能有許多原因,包括問題和底層基礎設施的配置問題。這裏有一些步驟可以進行故障排除和解決問題:

  1. 檢查工人實例的狀態在你的集群。確保他們都是啟動和運行,與底層基礎設施沒有問題。您還可以檢查工人實例的日誌是否有任何錯誤或問題可能會導致問題。
  2. 檢查集群的配置。確保配置是正確的,沒有錯誤或不一致。你也可以嚐試改變配置,看看是否可以解決這個問題。
  3. 試著重新啟動集群。有時,重新啟動集群可以解決這一問題。確保保存任何重要數據之前重新啟動集群。

值得注意的,如果運行時間仍然是像筆記本一樣運行,有可能筆記本並實際運行並完成,但是沒有保存由於錯誤日誌。

elikvar
新的貢獻者三世

嗨suteja,謝謝你的回應。不幸的是我已經試過這些,一切都看起來正常。我有許多不同的配置和運行的其他工作很多人使用相同的一個這個但出於某種原因這個偶爾會失敗。可能是工作的任務是做可能幹擾集群是如何表現的?如果我的理解是正確的集群將自動定量來滿足需求,也許一些關於工作是導致集群提供資源以一種奇怪的方式?然而,如果是這樣的話我想知道為什麼我沒有任何磚日誌,它甚至不顯示第一個單元格跑就是設置變量。

匿名
不適用

@Eli Kvarfordt:

當然可以,你的工作是執行的任務是導致集群的問題。例如,如果工作是使用大量的資源或生成大量的網絡流量,這可能是影響集群的性能或使其提供資源以意想不到的方式。

你可以嚐試的一件事是監控集群工作運行時的資源使用情況,看看是否有任何相關峰值或不尋常的模式可以失敗。您可以使用磚集群儀表盤指標監控集群的CPU、內存和網絡使用。

至於缺少日誌,有可能失敗也發生在工作執行過程的早期生成日誌。如果你的筆記本的第一個細胞甚至不運行,可能是筆記本本身是無法啟動或集群甚至終止之前到達第一個單元格。在這種情況下,它可能是有益的嚐試手動運行筆記本以外的作業調度器,看看你可以複製的問題,獲得更多的信息發生了什麼。

Kaniz
社區經理
社區經理

嗨@Eli Kvarfordt,我們一直沒有收到你自從上次反應@Suteja卡努裏人,我檢查看看她的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map