取消
顯示的結果
而不是尋找
你的意思是:

Ganglia不使用自定義容器服務

jamesw
新的貢獻者二世

設置:

  • 定製集裝箱碼頭工人從“databricksruntime / gpu-conda: cuda11”基礎圖像層
  • 10.4 LTS(包括Apache火花3.2.1之上,Scala 2.12)
  • 多節點,p3.8xlarge GPU計算

當我試著查看Ganglia指標我會見了“502錯誤網關”:

image.png即使~ 1小時我的計算集群運行沒有日誌:

圖像

作為一個檢查,我沒有自定義啟動另一個計算集裝箱碼頭工人(使用11.3 LTS毫升(包括Apache火花3.3.0,GPU, Scala 2.12))和神經節度量工作好。

有什麼局限性與Ganglia指標和自定義集裝箱碼頭工人嗎?

也當我使用定製的集裝箱碼頭工人,我被迫使用標準的運行時(10.4 LTS)作為機器學習運行時不支持自定義容器(見https://docs.www.eheci.com/clusters/custom-containers.html需求)

我想這可能是問題的來源。Ganglia的ML運行時提供任何需要的庫在GPU計算工作?

2回答2

Vivian_Wilfred
尊敬的貢獻者

嗨@James W, Ganglia並不是用於自定義默認集裝箱碼頭工人。這是一個已知的限製。

然而,您可以試試這個實驗支持定製DCS神經節:

https://github.com/databricks/containers/tree/master/experimental/ubuntu/ganglia

Kaniz
社區經理
社區經理

嗨@James W(客戶),我們沒有收到你自從上次反應@Vivian威爾弗雷德,我檢查,看看他的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map