StandardScaler

pyspark.mllib.feature。 StandardScaler ( withMean:bool=,withStd:bool=真正的 )

標準化特性通過刪除單元方差均值和擴展使用列彙總統計的樣本訓練集。

參數
withMean bool,可選

錯誤的默認。中心的數據意味著之前縮放。它將建立一個密集的輸出,所以照顧當應用於稀疏的輸入。

withStd bool,可選

真正的默認。尺度單位標準差的數據。

例子

> > >vs=(向量密集的([- - - - - -2.0,2.3,0]),向量密集的([3.8,0.0,1.9)))> > >數據集=sc並行化(vs)> > >標準化=StandardScaler(真正的,真正的)> > >模型=標準化適合(數據集)> > >結果=模型變換(數據集)> > >r結果收集():rDenseVector ((-0.7071, 0.7071, -0.7071))DenseVector ((0.7071, -0.7071, 0.7071))> > >int(模型性病(0])4> > >int(模型的意思是(0]*10)9> > >模型withStd真正的> > >模型withMean真正的

方法

適合(數據集)

計算均值和方差和商店作為一個模型用於以後的擴展。

方法的文檔

適合 ( 數據集:pyspark.rdd.RDD(VectorLike] )→StandardScalerModel

計算均值和方差和商店作為一個模型用於以後的擴展。

參數
數據集 pyspark.RDD

用於計算均值和方差的數據構建轉換模型。

返回
StandardScalerModel