史書

pyspark.ml.stat。 史書

矢量化統計工具MLlib向量。這個包中的方法為向量包含在DataFrames提供各種統計數據。這個類允許用戶選擇他們想統計數據來提取對於一個給定的列。

例子

> > >pyspark.ml.stat進口史書> > >pyspark.sql進口> > >pyspark.ml.linalg進口向量> > >史書=史書指標(“的意思是”,“數”)> > >df=sc並行化([(重量=1.0,特性=向量密集的(1.0,1.0,1.0)),(重量=0.0,特性=向量密集的(1.0,2.0,3.0))))toDF()> > >df選擇(史書總結(df特性,df重量))顯示(截斷=)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | aggregate_metrics(特性、重量)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| {(1.0,1.0,1.0),1}|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >df選擇(史書總結(df特性))顯示(截斷=)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | aggregate_metrics(功能,1.0)+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +| {(1.0,1.5,2.0),2}|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +> > >df選擇(史書的意思是(df特性,df重量))顯示(截斷=)+ - - - - - - - - - - - - - - - - +| |意味著(功能)+ - - - - - - - - - - - - - - - - +| | (1.0,1.0,1.0)+ - - - - - - - - - - - - - - - - +> > >df選擇(史書的意思是(df特性))顯示(截斷=)+ - - - - - - - - - - - - - - - - +| |意味著(功能)+ - - - - - - - - - - - - - - - - +| | (1.0,1.5,2.0)+ - - - - - - - - - - - - - - - - +

方法

(col [weightCol])

返回一列數總結

馬克斯(col [weightCol])

返回一列馬克斯總結

的意思是(col [weightCol])

返回一列意味著總結

指標(*指標)

鑒於一係列指標,提供了一個構建器,從一列結果計算指標。

最小值(col [weightCol])

返回一列分鍾總結

normL1(col [weightCol])

返回一列normL1總結

normL2(col [weightCol])

返回一列normL2總結

numNonZeros(col [weightCol])

返回一列numNonZero總結

性病(col [weightCol])

返回一列性病總結

總和(col [weightCol])

返回一列和總結

方差(col [weightCol])

返回一列方差總結

方法的文檔

靜態 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列數總結

靜態 馬克斯 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列馬克斯總結

靜態 的意思是 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列意味著總結

靜態 指標 ( *指標:str )pyspark.ml.stat.SummaryBuilder

鑒於一係列指標,提供了一個構建器,從一列結果計算指標。

的文檔史書了一個例子。

接受以下指標(區分大小寫):
  • 意思是:一個向量包含coefficient-wise的意思。

  • 總結:一個向量包含coefficient-wise求和。

  • 方差:一個向量包含coefficient-wise方差。

  • std:一個向量包含coefficient-wise標準差。

  • 數:所有向量的計算。

  • numNonzeros:向量的數量為每個係數非零

  • 馬克斯:每個係數的最大值。

  • 分鍾:為每個係數最小。

  • 為每個係數normL2:歐幾裏得範數。

  • normL1:每個係數的L1範數(絕對值之和)。

返回
pyspark.ml.stat.SummaryBuilder

筆記

目前,這個接口的性能是大約2 ~ 3 x低於使用抽樣接口。

例子

指標str

可以提供的指標。

靜態 最小值 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列分鍾總結

靜態 normL1 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列normL1總結

靜態 normL2 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列normL2總結

靜態 numNonZeros ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列numNonZero總結

靜態 性病 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列性病總結

靜態 總和 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列和總結

靜態 方差 ( 上校:pyspark.sql.column.Column,weightCol:可選(pyspark.sql.column.Column]=沒有一個 )→pyspark.sql.column.Column

返回一列方差總結