LogisticRegressionModel¶
-
類
pyspark.mllib.classification。
LogisticRegressionModel
( 權重:pyspark.mllib.linalg.Vector,攔截:浮動,numFeatures:int,numClasses:int ) ¶ -
分類模型的訓練使用多項/二元邏輯回歸。
- 參數
-
-
權重
pyspark.mllib.linalg.Vector
-
權重計算為每個特性。
- 攔截 浮動
-
截距計算模型。(僅用於二進製邏輯回歸。在多項邏輯回歸,攔截不會單個值,因此攔截將權重的一部分。)
- numFeatures int
-
的維數特征。
- numClasses int
-
可能的結果的數量在多項邏輯回歸k類的分類問題。默認情況下,它是二進製邏輯回歸所以numClasses將被設置為2。
-
權重
例子
> > >從pyspark.mllib.linalg進口SparseVector> > >數據=(…LabeledPoint(0.0,(0.0,1.0]),…LabeledPoint(1.0,(1.0,0.0]),…]> > >lrm=LogisticRegressionWithSGD。火車(sc。並行化(數據),迭代=10)> > >lrm。預測([1.0,0.0])1> > >lrm。預測([0.0,1.0])0> > >lrm。預測(sc。並行化([[1.0,0.0),(0.0,1.0]]))。收集()(1,0)> > >lrm。clearThreshold()> > >lrm。預測([0.0,1.0])0.279……
> > >sparse_data=(…LabeledPoint(0.0,SparseVector(2,{0:0.0})),…LabeledPoint(1.0,SparseVector(2,{1:1.0})),…LabeledPoint(0.0,SparseVector(2,{0:1.0})),…LabeledPoint(1.0,SparseVector(2,{1:2.0}))…]> > >lrm=LogisticRegressionWithSGD。火車(sc。並行化(sparse_data),迭代=10)> > >lrm。預測(numpy。數組([0.0,1.0)))1> > >lrm。預測(numpy。數組([1.0,0.0)))0> > >lrm。預測(SparseVector(2,{1:1.0}))1> > >lrm。預測(SparseVector(2,{0:1.0}))0> > >進口操作係統,tempfile> > >路徑=tempfile。mkdtemp()> > >lrm。保存(sc,路徑)> > >sameModel=LogisticRegressionModel。負載(sc,路徑)> > >sameModel。預測(numpy。數組([0.0,1.0)))1> > >sameModel。預測(SparseVector(2,{0:1.0}))0> > >從shutil進口rmtree> > >試一試:…rmtree(路徑)…除了BaseException:…通過> > >multi_class_data=(…LabeledPoint(0.0,(0.0,1.0,0.0]),…LabeledPoint(1.0,(1.0,0.0,0.0]),…LabeledPoint(2.0,(0.0,0.0,1.0])…]> > >數據=sc。並行化(multi_class_data)> > >羅馬數字=LogisticRegressionWithLBFGS。火車(數據,迭代=10,numClasses=3)> > >羅馬數字。預測([0.0,0.5,0.0])0> > >羅馬數字。預測([0.8,0.0,0.0])1> > >羅馬數字。預測([0.0,0.0,0.3])2
方法
掃清了閾值,這樣預測將輸出的原始預測分數。
負載
(sc路徑)從給定的路徑加載模型。
預測
(x)預測單個數據點的值或一個抽樣點的使用模型訓練。
保存
(sc路徑)這個模型保存到給定的路徑。
setThreshold
(值)設置閾值之間積極的預測從消極的預測。
屬性
截距計算模型。
一些可能的結果在多項邏輯回歸k類的分類問題。
維度的特性。
返回閾值(如果有的話)用於預測預測分數轉化為0/1。
權重計算為每個特性。
方法的文檔
-
clearThreshold
( )→沒有¶ -
掃清了閾值,這樣預測將輸出的原始預測分數。這是僅用於二進製分類。
-
classmethod
負載
( sc:pyspark.context.SparkContext,路徑:str )→pyspark.mllib.classification.LogisticRegressionModel ¶ -
從給定的路徑加載模型。
-
預測
( x:聯盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→聯盟(pyspark.rdd.RDD(聯盟(int,浮動] ] ,int,浮動] ¶ -
預測單個數據點的值或一個抽樣點的使用模型訓練。
-
保存
( sc:pyspark.context.SparkContext,路徑:str )→沒有¶ -
這個模型保存到給定的路徑。
-
setThreshold
( 價值:浮動 )→沒有¶ -
設置閾值之間積極的預測從消極的預測。一個例子與預測得分大於或等於閾值被認為是積極和消極的。這是僅用於二進製分類。
屬性的文檔
-
攔截
¶ -
截距計算模型。
-
numClasses
¶ -
一些可能的結果在多項邏輯回歸k類的分類問題。
-
numFeatures
¶ -
維度的特性。
-
閾值
¶ -
返回閾值(如果有的話)用於預測預測分數轉化為0/1。這是僅用於二進製分類。
-
權重
¶ -
權重計算為每個特性。