08-18-202201:40我
我在集群上運行工作每小時用p3.2xlarge GPU實例,但有時集群無法啟動由於實例不可用。我有回退機製,例如,嚐試不同的實例類型如果是不可用的。謝謝
08-18-202210點
你好,
實例類型不能改變到另一個AWS如果無法定義的類型之一。
你設置auto-AZ這份工作嗎?它將讓磚試試不同的可用性區域在同一地區在一個AZ如果instance_type不可用。
參考:https://docs.www.eheci.com/clusters/configure.html automatic-availability-zones-auto-az
08-18-2022下午11:13
你能解決你的問題,因為我也有同樣的問題。SurgeCardInfo登錄
06-27-2023上午11:57
(AWS)對於任何經曆能力相關的集群non-GPU實例上啟動故障類型,AWS艦隊實例類型現在GA和用於集群和實例池。他們幫助改善的機會成功的集群啟動允許集群使用的混合相似實例類型。在這裏你可以看到更多的細節:https://docs.www.eheci.com/compute/aws-fleet-instances.html
不幸的是艦隊實例類型不支持gpu。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。