RandomForest

pyspark.mllib.tree。 RandomForest

學習算法的隨機森林模型分類或回歸。

方法

trainClassifier(數據、numClasses…[…])

訓練隨機森林模型對二進製或多類分類。

trainRegressor(數據…[…])

為回歸訓練隨機森林模型。

屬性

supportedFeatureSubsetStrategies

方法的文檔

classmethod trainClassifier ( 數據:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],numClasses:int,categoricalFeaturesInfo:Dict(int,int],numTrees:int,featureSubsetStrategy:str=“汽車”,雜質:str=“基尼”,maxDepth:int=4,maxBins:int=32,種子:可選(int]=沒有一個 )pyspark.mllib.tree.RandomForestModel

訓練隨機森林模型對二進製或多類分類。

參數
數據 pyspark.RDD

訓練數據集:LabeledPoint抽樣。標簽應該值{0,1,…,numClasses-1}。

numClasses int

類的數量分類。

categoricalFeaturesInfo dict

地圖存儲參數數量分類的功能。一個條目(n - > k)表明功能n k類別索引從0直言:{0,1,…,k - 1}。

numTrees int

隨機森林的樹木數量。

featureSubsetStrategy str,可選

數量的特性考慮每個節點的分裂。支持的價值觀:“汽車”,“所有”、“√”,“log2”、“onethird”。如果設置了“自動”,這個參數設置基於numTrees:如果numTrees = = 1,設置為“所有”;如果numTrees > 1(森林)設置為“√”。(默認值是“汽車”)

雜質 str,可選

用於信息增益的計算標準。支持的價值觀:“基尼”或“熵”。(默認:“基尼”)

maxDepth int,可選

樹的最大深度(例如深度0意味著1葉節點,深度1意味著1 + 2葉節點內部節點)。(默認值:4)

maxBins int,可選

最大數量的垃圾箱用於分裂功能。(默認值:32)

種子 int,可選

隨機種子引導和選擇特征子集。基於係統時間設置為不產生種子。(默認值:無)

返回
RandomForestModel

可用於預測。

例子

> > >pyspark.mllib.regression進口LabeledPoint> > >pyspark.mllib.tree進口RandomForest> > >> > >數據=(LabeledPoint(0.0,(0.0]),LabeledPoint(0.0,(1.0]),LabeledPoint(1.0,(2.0]),LabeledPoint(1.0,(3.0])]> > >模型=RandomForesttrainClassifier(sc並行化(數據),2,{},3,種子=42)> > >模型numTrees()3> > >模型totalNumNodes()7> > >打印(模型)TreeEnsembleModel分類器與3樹> > >打印(模型toDebugString())TreeEnsembleModel分類器與3樹樹0:預測:1.0樹1:如果(功能0 < = 1.5)預測:0.0其他(功能0 > 1.5)預測:1.0樹2:如果(功能0 < = 1.5)預測:0.0其他(功能0 > 1.5)預測:1.0> > >模型預測([2.0])1.0> > >模型預測([0.0])0.0> > >抽樣=sc並行化([[3.0),(1.0]])> > >模型預測(抽樣)收集()[1.0,0.0]
classmethod trainRegressor ( 數據:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],categoricalFeaturesInfo:Dict(int,int],numTrees:int,featureSubsetStrategy:str=“汽車”,雜質:str=“方差”,maxDepth:int=4,maxBins:int=32,種子:可選(int]=沒有一個 )pyspark.mllib.tree.RandomForestModel

為回歸訓練隨機森林模型。

參數
數據 pyspark.RDD

訓練數據集:LabeledPoint抽樣。標簽是實數。

categoricalFeaturesInfo dict

地圖存儲參數數量分類的功能。一個條目(n - > k)表明功能n k類別索引從0直言:{0,1,…,k - 1}。

numTrees int

隨機森林的樹木數量。

featureSubsetStrategy str,可選

數量的特性考慮每個節點的分裂。支持的價值觀:“汽車”,“所有”、“√”,“log2”、“onethird”。如果設置了“自動”,這個參數設置基於numTrees:

  • 如果numTrees = = 1,設置為“所有”;

  • 如果numTrees > 1(森林)設置為“onethird”回歸。

(默認值是“汽車”)

雜質 str,可選

用於信息增益的計算標準。僅支持的價值回歸“方差”。(默認:“方差”)

maxDepth int,可選

樹的最大深度(例如深度0意味著1葉節點,深度1意味著1 + 2葉節點內部節點)。(默認值:4)

maxBins int,可選

最大數量的垃圾箱用於分裂功能。(默認值:32)

種子 int,可選

隨機種子引導和選擇特征子集。基於係統時間設置為不產生種子。(默認值:無)

返回
RandomForestModel

可用於預測。

例子

> > >pyspark.mllib.regression進口LabeledPoint> > >pyspark.mllib.tree進口RandomForest> > >pyspark.mllib.linalg進口SparseVector> > >> > >sparse_data=(LabeledPoint(0.0,SparseVector(2,{0:1.0})),LabeledPoint(1.0,SparseVector(2,{1:1.0})),LabeledPoint(0.0,SparseVector(2,{0:1.0})),LabeledPoint(1.0,SparseVector(2,{1:2.0}))]> > >> > >模型=RandomForesttrainRegressor(sc並行化(sparse_data),{},2,種子=42)> > >模型numTrees()2> > >模型totalNumNodes()4> > >模型預測(SparseVector(2,{1:1.0}))1.0> > >模型預測(SparseVector(2,{0:1.0}))0.5> > >抽樣=sc並行化([[0.0,1.0),(1.0,0.0]])> > >模型預測(抽樣)收集()[1.0,0.5]

屬性的文檔

supportedFeatureSubsetStrategies :Tuple (str,……) =(‘汽車’,‘所有’,‘√’,‘log2’,‘onethird’)