StreamingLinearRegressionWithSGD

pyspark.mllib.regression。 StreamingLinearRegressionWithSGD ( stepSize:浮動=0.1,numIterations:int=50,miniBatchFraction:浮動=1.0,convergenceTol:浮動=0.001 )

火車或預測流數據的線性回歸模型。培訓使用隨機梯度下降法來更新模型基於每一批新傳入的數據從一個DStream(見LinearRegressionWithSGD對模型方程)。

每一批的數據被認為是一個LabeledPoints抽樣。數據點的數量每批可以不同,但功能的數量必須是常數。必須提供一個初始權向量。

參數
stepSize 浮動,可選

為每個迭代步長梯度下降法。(默認值:0.1)

numIterations int,可選

運行的迭代次數為每一批數據。(默認值:50)

miniBatchFraction 浮動,可選

分數每一批的數據用於更新。(默認值:1.0)

convergenceTol 浮動,可選

值用來確定何時終止迭代。(默認值:0.001)

方法

latestModel()

返回最新的模型。

predictOn(dstream)

使用該模型來預測從DStream批次的數據。

predictOnValues(dstream)

利用該模型預測的值DStream和攜帶的鑰匙。

setInitialWeights(initialWeights)

設置權重的初始值。

trainOn(dstream)

在傳入dstream火車模型。

方法的文檔

latestModel ( )→可選( pyspark.mllib.regression.LinearModel ]

返回最新的模型。

predictOn ( dstream:DStream(VectorLike] )→DStream(浮動]

使用該模型來預測從DStream批次的數據。

返回
pyspark.streaming.DStream

DStream包含預測。

predictOnValues ( dstream:DStream(元組(K,VectorLike]] )→DStream(元組(K,浮動] ]

利用該模型預測的值DStream和攜帶的鑰匙。

返回
pyspark.streaming.DStream

DStream包含預測。

setInitialWeights ( initialWeights:VectorLike )→StreamingLinearRegressionWithSGD

設置權重的初始值。

這個運行trainOn和predictOn之前必須設置

trainOn ( dstream:pyspark.streaming.dstream.DStream(pyspark.mllib.regression.LabeledPoint] )→沒有

在傳入dstream火車模型。