StandardScaler¶
-
類
pyspark.mllib.feature。
StandardScaler
( withMean:bool=假,withStd:bool=真正的 ) ¶ -
標準化特性通過刪除單元方差均值和擴展使用列彙總統計的樣本訓練集。
- 參數
-
- withMean bool,可選
-
錯誤的默認。中心的數據意味著之前縮放。它將建立一個密集的輸出,所以照顧當應用於稀疏的輸入。
- withStd bool,可選
-
真正的默認。尺度單位標準差的數據。
例子
> > >vs=(向量。密集的([- - - - - -2.0,2.3,0]),向量。密集的([3.8,0.0,1.9)))> > >數據集=sc。並行化(vs)> > >標準化=StandardScaler(真正的,真正的)> > >模型=標準化。適合(數據集)> > >結果=模型。變換(數據集)> > >為r在結果。收集():rDenseVector ((-0.7071, 0.7071, -0.7071))DenseVector ((0.7071, -0.7071, 0.7071))> > >int(模型。性病(0])4> > >int(模型。的意思是(0]*10)9> > >模型。withStd真正的> > >模型。withMean真正的
方法
適合
(數據集)計算均值和方差和商店作為一個模型用於以後的擴展。
方法的文檔
-
適合
( 數據集:pyspark.rdd.RDD(VectorLike] )→StandardScalerModel¶ -
計算均值和方差和商店作為一個模型用於以後的擴展。
- 參數
-
-
數據集
pyspark.RDD
-
用於計算均值和方差的數據構建轉換模型。
-
數據集
- 返回