GradientBoostedTrees¶
-
類
pyspark.mllib.tree。
GradientBoostedTrees
¶ -
為一個梯度學習算法提高了分類和回歸樹模型。
方法
trainClassifier
(數據、categoricalFeaturesInfo)火車gradient-boosted樹木模型的分類。
trainRegressor
(數據、categoricalFeaturesInfo)訓練gradient-boosted回歸樹模型。
方法的文檔
-
classmethod
trainClassifier
( 數據:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],categoricalFeaturesInfo:Dict(int,int],損失:str=“logLoss”,numIterations:int=One hundred.,learningRate:浮動=0.1,maxDepth:int=3,maxBins:int=32 )→pyspark.mllib.tree.GradientBoostedTreesModel ¶ -
火車gradient-boosted樹木模型的分類。
- 參數
-
-
數據
pyspark.RDD
-
訓練數據集:LabeledPoint抽樣。標簽應該值{0,1}。
- categoricalFeaturesInfo dict
-
地圖存儲參數數量分類的功能。一個條目(n - > k)表明功能n k類別索引從0直言:{0,1,…,k - 1}。
- 損失 str,可選
-
損失函數在梯度增加用於最小化。支持的價值觀:“logLoss”、“leastSquaresError”,“leastAbsoluteError”。(默認:“logLoss”)
- numIterations int,可選
-
迭代次數增加。(默認:100)
- learningRate 浮動,可選
-
學習速率的減少每個估計的貢獻。學習速率應該之間的間隔(0,1)。(默認值:0.1)
- maxDepth int,可選
-
樹的最大深度(例如深度0意味著1葉節點,深度1意味著1 + 2葉節點內部節點)。(默認值是3)
- maxBins int,可選
-
最大數量的垃圾箱用於分裂功能。DecisionTree需要maxBins > = max類別。(默認值:32)
-
數據
- 返回
-
-
GradientBoostedTreesModel
-
可用於預測。
-
例子
> > >從pyspark.mllib.regression進口LabeledPoint> > >從pyspark.mllib.tree進口GradientBoostedTrees> > >> > >數據=(…LabeledPoint(0.0,(0.0]),…LabeledPoint(0.0,(1.0]),…LabeledPoint(1.0,(2.0]),…LabeledPoint(1.0,(3.0])…]> > >> > >模型=GradientBoostedTrees。trainClassifier(sc。並行化(數據),{},numIterations=10)> > >模型。numTrees()10> > >模型。totalNumNodes()30.> > >打印(模型)#它已經有換行符TreeEnsembleModel與10棵樹分類器> > >模型。預測([2.0])1.0> > >模型。預測([0.0])0.0> > >抽樣=sc。並行化([[2.0),(0.0]])> > >模型。預測(抽樣)。收集()[1.0,0.0]
-
classmethod
trainRegressor
( 數據:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],categoricalFeaturesInfo:Dict(int,int],損失:str=“leastSquaresError”,numIterations:int=One hundred.,learningRate:浮動=0.1,maxDepth:int=3,maxBins:int=32 )→pyspark.mllib.tree.GradientBoostedTreesModel ¶ -
訓練gradient-boosted回歸樹模型。
- 參數
-
- 數據:
-
訓練數據集:LabeledPoint抽樣。標簽是實數。
- categoricalFeaturesInfo dict
-
地圖存儲參數數量分類的功能。一個條目(n - > k)表明功能n k類別索引從0直言:{0,1,…,k - 1}。
- 損失 str,可選
-
損失函數在梯度增加用於最小化。支持的價值觀:“logLoss”、“leastSquaresError”,“leastAbsoluteError”。(默認:“leastSquaresError”)
- numIterations int,可選
-
迭代次數增加。(默認:100)
- learningRate 浮動,可選
-
學習速率的減少每個估計的貢獻。學習速率應該之間的間隔(0,1)。(默認值:0.1)
- maxDepth int,可選
-
樹的最大深度(例如深度0意味著1葉節點,深度1意味著1 + 2葉節點內部節點)。(默認值是3)
- maxBins int,可選
-
最大數量的垃圾箱用於分裂功能。DecisionTree需要maxBins > = max類別。(默認值:32)
- 返回
-
-
GradientBoostedTreesModel
-
可用於預測。
-
例子
> > >從pyspark.mllib.regression進口LabeledPoint> > >從pyspark.mllib.tree進口GradientBoostedTrees> > >從pyspark.mllib.linalg進口SparseVector> > >> > >sparse_data=(…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:1.0})),…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:2.0}))…]> > >> > >數據=sc。並行化(sparse_data)> > >模型=GradientBoostedTrees。trainRegressor(數據,{},numIterations=10)> > >模型。numTrees()10> > >模型。totalNumNodes()12> > >模型。預測(SparseVector(2,{1:1.0}))1.0> > >模型。預測(SparseVector(2,{0:1.0}))0.0> > >抽樣=sc。並行化([[0.0,1.0),(1.0,0.0]])> > >模型。預測(抽樣)。收集()[1.0,0.0]
-
classmethod