LinearDataGenerator

pyspark.mllib.util。 LinearDataGenerator

跑龍套生成線性數據。

方法

generateLinearInput(攔截、重量…)

參數

generateLinearRDD(sc、nexamples nfeatures eps)

生成一個LabeledPoints抽樣。

方法的文檔

靜態 generateLinearInput ( 攔截:浮動,權重:VectorLike,xMean:VectorLike,xVariance:VectorLike,nPoints:int,種子:int,每股收益:浮動 )→列表(LabeledPoint]
參數
攔截 浮動

偏差係數,c X 'w + c

權重 pyspark.mllib.linalg.Vector或可轉換

特征向量,這個詞在X 'w + c w

xMean pyspark.mllib.linalg.Vector或可轉換

點在數據X為中心。

xVariance pyspark.mllib.linalg.Vector或可轉換

給定數據的方差

nPoints int

點生成的數量

種子 int

隨機種子

每股收益 浮動

用於規模噪音。如果設置了每股收益高,添加高斯噪聲的數量更多。

返回
列表

pyspark.mllib.regression.LabeledPoints長度nPoints

靜態 generateLinearRDD ( sc:pyspark.context.SparkContext,nexamples:int,nfeatures:int,每股收益:浮動,nParts:int=2,攔截:浮動=0.0 )→pyspark.rdd.RDD(LabeledPoint]

生成一個LabeledPoints抽樣。