pyspark.sql.DataFrameStatFunctions

pyspark.sql。 DataFrameStatFunctions ( df:pyspark.sql.dataframe.DataFrame )

功能和統計功能DataFrame

方法

approxQuantile(relativeError坳,概率)

計算的近似數值列的分位數DataFrame

相關係數(col1 col2[方法])

計算兩列的相關性DataFrame作為一個雙精度值。

(col1 col2)

計算樣本協方差為給定的列,指定他們的名字,作為一個雙重價值。

交叉表(col1 col2)

計算兩兩頻率給定的表列。

freqItems(關口[支持])

發現頻繁項目列,可能與假陽性。

sampleBy(坳,分數(、種子))

返回一個分層抽樣不重複每層基於給出的分數。