取消
顯示的結果
而不是尋找
你的意思是:

集群配置為毫升模型訓練

johnb1
新的貢獻者三世

這就跟你問聲好!

我訓練隨機森林(pyspark.ml.classification.RandomForestClassifier)磚1000000訓練例子和25的特性。我使用一個集群中有一個司機(16 GB的內存,4核),2 - 6工人(32 - 96 GB內存,日到24日核),和一個11.3.x-cpu-ml-scala2.12運行時。我使用的默認值大部分hyperparameters, maxDepth = 18和numTrees = 150(無調優)。運行時的訓練是80分鍾。

我該玩什麼參數在有效加快培訓(即w / o浪費資源)?我已經利用多個節點,對吧?最大數量的工人,工人類型(通用、內存優化計算優化,硬盤驅動器,三角洲緩存加速),GPU,現貨情況下,自動定量,光子加速?

感謝您的輸入!

3回複3

karthik_p
尊敬的貢獻者

@John B可以基於用例,但對ML工作(深度學習等),你可以用GPU集群,集群,因為它將比正常的要快。至於毫升不支持運行時光子。一旦你熟悉了最終的尺寸你可以安排工作

Vidula_Khanna
主持人
主持人

嗨@John B

希望一切進行得很順利。

隻是想檢查如果你能解決你的問題。如果是的,你會很高興的答案標記為最好,其他成員可以找到解決方案更快嗎?如果不是,請告訴我們,我們可以幫助你。

幹杯!

johnb1
新的貢獻者三世

嗨@Vidula卡納

不幸的是沒有回答是提供的幫助我解決我的問題。

約翰。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map