這就跟你問聲好!
我訓練隨機森林(pyspark.ml.classification.RandomForestClassifier)磚1000000訓練例子和25的特性。我使用一個集群中有一個司機(16 GB的內存,4核),2 - 6工人(32 - 96 GB內存,日到24日核),和一個11.3.x-cpu-ml-scala2.12運行時。我使用的默認值大部分hyperparameters, maxDepth = 18和numTrees = 150(無調優)。運行時的訓練是80分鍾。
我該玩什麼參數在有效加快培訓(即w / o浪費資源)?我已經利用多個節點,對吧?最大數量的工人,工人類型(通用、內存優化計算優化,硬盤驅動器,三角洲緩存加速),GPU,現貨情況下,自動定量,光子加速?
感謝您的輸入!