LogisticRegressionModel

pyspark.mllib.classification。 LogisticRegressionModel ( 權重:pyspark.mllib.linalg.Vector,攔截:浮動,numFeatures:int,numClasses:int )

分類模型的訓練使用多項/二元邏輯回歸。

參數
權重 pyspark.mllib.linalg.Vector

權重計算為每個特性。

攔截 浮動

截距計算模型。(僅用於二進製邏輯回歸。在多項邏輯回歸,攔截不會單個值,因此攔截將權重的一部分。)

numFeatures int

的維數特征。

numClasses int

可能的結果的數量在多項邏輯回歸k類的分類問題。默認情況下,它是二進製邏輯回歸所以numClasses將被設置為2。

例子

> > >pyspark.mllib.linalg進口SparseVector> > >數據=(LabeledPoint(0.0,(0.0,1.0]),LabeledPoint(1.0,(1.0,0.0]),]> > >lrm=LogisticRegressionWithSGD火車(sc並行化(數據),迭代=10)> > >lrm預測([1.0,0.0])1> > >lrm預測([0.0,1.0])0> > >lrm預測(sc並行化([[1.0,0.0),(0.0,1.0]]))收集()(1,0)> > >lrmclearThreshold()> > >lrm預測([0.0,1.0])0.279……
> > >sparse_data=(LabeledPoint(0.0,SparseVector(2,{0:0.0})),LabeledPoint(1.0,SparseVector(2,{1:1.0})),LabeledPoint(0.0,SparseVector(2,{0:1.0})),LabeledPoint(1.0,SparseVector(2,{1:2.0}))]> > >lrm=LogisticRegressionWithSGD火車(sc並行化(sparse_data),迭代=10)> > >lrm預測(numpy數組([0.0,1.0)))1> > >lrm預測(numpy數組([1.0,0.0)))0> > >lrm預測(SparseVector(2,{1:1.0}))1> > >lrm預測(SparseVector(2,{0:1.0}))0> > >進口操作係統,tempfile> > >路徑=tempfilemkdtemp()> > >lrm保存(sc,路徑)> > >sameModel=LogisticRegressionModel負載(sc,路徑)> > >sameModel預測(numpy數組([0.0,1.0)))1> > >sameModel預測(SparseVector(2,{0:1.0}))0> > >shutil進口rmtree> > >試一試:rmtree(路徑)除了BaseException:通過> > >multi_class_data=(LabeledPoint(0.0,(0.0,1.0,0.0]),LabeledPoint(1.0,(1.0,0.0,0.0]),LabeledPoint(2.0,(0.0,0.0,1.0])]> > >數據=sc並行化(multi_class_data)> > >羅馬數字=LogisticRegressionWithLBFGS火車(數據,迭代=10,numClasses=3)> > >羅馬數字預測([0.0,0.5,0.0])0> > >羅馬數字預測([0.8,0.0,0.0])1> > >羅馬數字預測([0.0,0.0,0.3])2

方法

clearThreshold()

掃清了閾值,這樣預測將輸出的原始預測分數。

負載(sc路徑)

從給定的路徑加載模型。

預測(x)

預測單個數據點的值或一個抽樣點的使用模型訓練。

保存(sc路徑)

這個模型保存到給定的路徑。

setThreshold(值)

設置閾值之間積極的預測從消極的預測。

屬性

攔截

截距計算模型。

numClasses

一些可能的結果在多項邏輯回歸k類的分類問題。

numFeatures

維度的特性。

閾值

返回閾值(如果有的話)用於預測預測分數轉化為0/1。

權重

權重計算為每個特性。

方法的文檔

clearThreshold ( )→沒有

掃清了閾值,這樣預測將輸出的原始預測分數。這是僅用於二進製分類。

classmethod 負載 ( sc:pyspark.context.SparkContext,路徑:str )pyspark.mllib.classification.LogisticRegressionModel

從給定的路徑加載模型。

預測 ( x:聯盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→聯盟(pyspark.rdd.RDD(聯盟(int,浮動] ] ,int,浮動]

預測單個數據點的值或一個抽樣點的使用模型訓練。

保存 ( sc:pyspark.context.SparkContext,路徑:str )→沒有

這個模型保存到給定的路徑。

setThreshold ( 價值:浮動 )→沒有

設置閾值之間積極的預測從消極的預測。一個例子與預測得分大於或等於閾值被認為是積極和消極的。這是僅用於二進製分類。

屬性的文檔

攔截

截距計算模型。

numClasses

一些可能的結果在多項邏輯回歸k類的分類問題。

numFeatures

維度的特性。

閾值

返回閾值(如果有的話)用於預測預測分數轉化為0/1。這是僅用於二進製分類。

權重

權重計算為每個特性。