RandomForest¶
-
類
pyspark.mllib.tree。
RandomForest
¶ -
學習算法的隨機森林模型分類或回歸。
方法
trainClassifier
(數據、numClasses…[…])訓練隨機森林模型對二進製或多類分類。
trainRegressor
(數據…[…])為回歸訓練隨機森林模型。
屬性
方法的文檔
-
classmethod
trainClassifier
( 數據:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],numClasses:int,categoricalFeaturesInfo:Dict(int,int],numTrees:int,featureSubsetStrategy:str=“汽車”,雜質:str=“基尼”,maxDepth:int=4,maxBins:int=32,種子:可選(int]=沒有一個 )→pyspark.mllib.tree.RandomForestModel ¶ -
訓練隨機森林模型對二進製或多類分類。
- 參數
-
-
數據
pyspark.RDD
-
訓練數據集:LabeledPoint抽樣。標簽應該值{0,1,…,numClasses-1}。
- numClasses int
-
類的數量分類。
- categoricalFeaturesInfo dict
-
地圖存儲參數數量分類的功能。一個條目(n - > k)表明功能n k類別索引從0直言:{0,1,…,k - 1}。
- numTrees int
-
隨機森林的樹木數量。
- featureSubsetStrategy str,可選
-
數量的特性考慮每個節點的分裂。支持的價值觀:“汽車”,“所有”、“√”,“log2”、“onethird”。如果設置了“自動”,這個參數設置基於numTrees:如果numTrees = = 1,設置為“所有”;如果numTrees > 1(森林)設置為“√”。(默認值是“汽車”)
- 雜質 str,可選
-
用於信息增益的計算標準。支持的價值觀:“基尼”或“熵”。(默認:“基尼”)
- maxDepth int,可選
-
樹的最大深度(例如深度0意味著1葉節點,深度1意味著1 + 2葉節點內部節點)。(默認值:4)
- maxBins int,可選
-
最大數量的垃圾箱用於分裂功能。(默認值:32)
- 種子 int,可選
-
隨機種子引導和選擇特征子集。基於係統時間設置為不產生種子。(默認值:無)
-
數據
- 返回
-
-
RandomForestModel
-
可用於預測。
-
例子
> > >從pyspark.mllib.regression進口LabeledPoint> > >從pyspark.mllib.tree進口RandomForest> > >> > >數據=(…LabeledPoint(0.0,(0.0]),…LabeledPoint(0.0,(1.0]),…LabeledPoint(1.0,(2.0]),…LabeledPoint(1.0,(3.0])…]> > >模型=RandomForest。trainClassifier(sc。並行化(數據),2,{},3,種子=42)> > >模型。numTrees()3> > >模型。totalNumNodes()7> > >打印(模型)TreeEnsembleModel分類器與3樹> > >打印(模型。toDebugString())TreeEnsembleModel分類器與3樹樹0:預測:1.0樹1:如果(功能0 < = 1.5)預測:0.0其他(功能0 > 1.5)預測:1.0樹2:如果(功能0 < = 1.5)預測:0.0其他(功能0 > 1.5)預測:1.0> > >模型。預測([2.0])1.0> > >模型。預測([0.0])0.0> > >抽樣=sc。並行化([[3.0),(1.0]])> > >模型。預測(抽樣)。收集()[1.0,0.0]
-
classmethod
trainRegressor
( 數據:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],categoricalFeaturesInfo:Dict(int,int],numTrees:int,featureSubsetStrategy:str=“汽車”,雜質:str=“方差”,maxDepth:int=4,maxBins:int=32,種子:可選(int]=沒有一個 )→pyspark.mllib.tree.RandomForestModel ¶ -
為回歸訓練隨機森林模型。
- 參數
-
-
數據
pyspark.RDD
-
訓練數據集:LabeledPoint抽樣。標簽是實數。
- categoricalFeaturesInfo dict
-
地圖存儲參數數量分類的功能。一個條目(n - > k)表明功能n k類別索引從0直言:{0,1,…,k - 1}。
- numTrees int
-
隨機森林的樹木數量。
- featureSubsetStrategy str,可選
-
數量的特性考慮每個節點的分裂。支持的價值觀:“汽車”,“所有”、“√”,“log2”、“onethird”。如果設置了“自動”,這個參數設置基於numTrees:
如果numTrees = = 1,設置為“所有”;
如果numTrees > 1(森林)設置為“onethird”回歸。
(默認值是“汽車”)
- 雜質 str,可選
-
用於信息增益的計算標準。僅支持的價值回歸“方差”。(默認:“方差”)
- maxDepth int,可選
-
樹的最大深度(例如深度0意味著1葉節點,深度1意味著1 + 2葉節點內部節點)。(默認值:4)
- maxBins int,可選
-
最大數量的垃圾箱用於分裂功能。(默認值:32)
- 種子 int,可選
-
隨機種子引導和選擇特征子集。基於係統時間設置為不產生種子。(默認值:無)
-
數據
- 返回
-
-
RandomForestModel
-
可用於預測。
-
例子
> > >從pyspark.mllib.regression進口LabeledPoint> > >從pyspark.mllib.tree進口RandomForest> > >從pyspark.mllib.linalg進口SparseVector> > >> > >sparse_data=(…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:1.0})),…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:2.0}))…]> > >> > >模型=RandomForest。trainRegressor(sc。並行化(sparse_data),{},2,種子=42)> > >模型。numTrees()2> > >模型。totalNumNodes()4> > >模型。預測(SparseVector(2,{1:1.0}))1.0> > >模型。預測(SparseVector(2,{0:1.0}))0.5> > >抽樣=sc。並行化([[0.0,1.0),(1.0,0.0]])> > >模型。預測(抽樣)。收集()[1.0,0.5]
屬性的文檔
-
supportedFeatureSubsetStrategies
:Tuple (str,……) =(‘汽車’,‘所有’,‘√’,‘log2’,‘onethird’) ¶
-
classmethod