史書¶
-
類
pyspark.ml.stat。
史書
¶ -
矢量化統計工具MLlib向量。這個包中的方法為向量包含在DataFrames提供各種統計數據。這個類允許用戶選擇他們想統計數據來提取對於一個給定的列。
例子
> > >從pyspark.ml.stat進口史書> > >從pyspark.sql進口行> > >從pyspark.ml.linalg進口向量> > >史書=史書。指標(“的意思是”,“數”)> > >df=sc。並行化([行(重量=1.0,特性=向量。密集的(1.0,1.0,1.0)),…行(重量=0.0,特性=向量。密集的(1.0,2.0,3.0))))。toDF()> > >df。選擇(史書。總結(df。特性,df。重量))。顯示(截斷=假)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | aggregate_metrics(特性、重量)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| {(1.0,1.0,1.0),1}|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >df。選擇(史書。總結(df。特性))。顯示(截斷=假)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | aggregate_metrics(功能,1.0)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| {(1.0,1.5,2.0),2}|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >df。選擇(史書。的意思是(df。特性,df。重量))。顯示(截斷=假)+ - - - - - - - - - - - - - - - - +| |意味著(功能)+ - - - - - - - - - - - - - - - - +| | (1.0,1.0,1.0)+ - - - - - - - - - - - - - - - - +> > >df。選擇(史書。的意思是(df。特性))。顯示(截斷=假)+ - - - - - - - - - - - - - - - - +| |意味著(功能)+ - - - - - - - - - - - - - - - - +| | (1.0,1.5,2.0)+ - - - - - - - - - - - - - - - - +
方法
數
(col [weightCol])返回一列數總結
馬克斯
(col [weightCol])返回一列馬克斯總結
的意思是
(col [weightCol])返回一列意味著總結
指標
(*指標)鑒於一係列指標,提供了一個構建器,從一列結果計算指標。
最小值
(col [weightCol])返回一列分鍾總結
normL1
(col [weightCol])返回一列normL1總結
normL2
(col [weightCol])返回一列normL2總結
numNonZeros
(col [weightCol])返回一列numNonZero總結
性病
(col [weightCol])返回一列性病總結
總和
(col [weightCol])返回一列和總結
方差
(col [weightCol])返回一列方差總結
方法的文檔
-
靜態
數
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列數總結
-
靜態
馬克斯
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列馬克斯總結
-
靜態
的意思是
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列意味著總結
-
靜態
指標
( *指標:str )→pyspark.ml.stat.SummaryBuilder ¶ -
鑒於一係列指標,提供了一個構建器,從一列結果計算指標。
的文檔
史書
了一個例子。- 接受以下指標(區分大小寫):
-
意思是:一個向量包含coefficient-wise的意思。
總結:一個向量包含coefficient-wise求和。
方差:一個向量包含coefficient-wise方差。
std:一個向量包含coefficient-wise標準差。
數:所有向量的計算。
numNonzeros:向量的數量為每個係數非零
馬克斯:每個係數的最大值。
分鍾:為每個係數最小。
為每個係數normL2:歐幾裏得範數。
normL1:每個係數的L1範數(絕對值之和)。
筆記
目前,這個接口的性能是大約2 ~ 3 x低於使用抽樣接口。
例子
- 指標str
-
可以提供的指標。
-
靜態
最小值
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列分鍾總結
-
靜態
normL1
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列normL1總結
-
靜態
normL2
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列normL2總結
-
靜態
numNonZeros
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列numNonZero總結
-
靜態
性病
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列性病總結
-
靜態
總和
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列和總結
-
靜態
方差
( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column¶ -
返回一列方差總結
-
靜態