設置:
當我試著查看Ganglia指標我會見了“502錯誤網關”:
即使~ 1小時我的計算集群運行沒有日誌:
作為一個檢查,我沒有自定義啟動另一個計算集裝箱碼頭工人(使用11.3 LTS毫升(包括Apache火花3.3.0,GPU, Scala 2.12))和神經節度量工作好。
有什麼局限性與Ganglia指標和自定義集裝箱碼頭工人嗎?
也當我使用定製的集裝箱碼頭工人,我被迫使用標準的運行時(10.4 LTS)作為機器學習運行時不支持自定義容器(見https://docs.www.eheci.com/clusters/custom-containers.html需求)。
我想這可能是問題的來源。Ganglia的ML運行時提供任何需要的庫在GPU計算工作?
嗨@James W, Ganglia並不是用於自定義默認集裝箱碼頭工人。這是一個已知的限製。
然而,您可以試試這個實驗支持定製DCS神經節:
https://github.com/databricks/containers/tree/master/experimental/ubuntu/ganglia