KolmogorovSmirnovTest

pyspark.ml.stat。 KolmogorovSmirnovTest

進行雙邊柯爾莫哥洛夫斯米爾諾夫(KS)測試數據從一個連續分布采樣。

通過比較最大的區別樣品的經驗累積分布數據和理論分布我們可以提供一個測試的零假設的理論分布的樣本數據來自。

方法

測試(數據集,sampleCol distName * params)

進行一次采樣,兩麵Kolmogorov-Smirnov檢測概率分布的平等。

方法的文檔

靜態 測試 ( 數據集:pyspark.sql.dataframe.DataFrame,sampleCol:str,distName:str,*參數個數:浮動 )→pyspark.sql.dataframe.DataFrame

進行一次采樣,兩麵Kolmogorov-Smirnov檢測概率分布的平等。目前支持的正態分布,作為參數的平均值和標準偏差。

參數
數據集 pyspark.sql.DataFrame

一個數據集或DataFrame包含的樣本數據進行測試。

sampleCol str

樣本的名字列在數據集,任何數值類型。

distName str

一個字符串名字的理論分布,目前隻支持“常態”。

參數個數 浮動

的列表浮動指定參數值用於理論分布。“規範”分布,參數包括均值和方差。

返回
一個包含Kolmogorov-Smirnov DataFrame輸入采樣數據的測試結果。
這DataFrame將包含一行以下字段:
  • pValue:雙
  • 統計數據:雙

例子

> > >pyspark.ml.stat進口KolmogorovSmirnovTest> > >數據集=[[- - - - - -1.0),(0.0),(1.0]]> > >數據集=火花createDataFrame(數據集,(“樣本”])> > >ksResult=KolmogorovSmirnovTest測試(數據集,“樣本”,“規範”,0.0,1.0)第一個()> > >(ksResultpValue,3)1.0> > >(ksResult統計,3)0.175> > >數據集=[[2.0),(3.0),(4.0]]> > >數據集=火花createDataFrame(數據集,(“樣本”])> > >ksResult=KolmogorovSmirnovTest測試(數據集,“樣本”,“規範”,3.0,1.0)第一個()> > >(ksResultpValue,3)1.0> > >(ksResult統計,3)0.175