ChiSquareTest

pyspark.ml.stat。 ChiSquareTest

進行皮爾遜的獨立測試每一個特性對標簽。對於每一個功能,(功能,標簽)對轉換為應急矩陣卡方統計量的計算。所有的標簽必須分類和特征值。

零假設是結果的發生是統計獨立的。

方法

測試(數據集、featuresCol labelCol[,平])

使用數據集執行皮爾森的獨立測試。

方法的文檔

靜態 測試 ( 數據集:pyspark.sql.dataframe.DataFrame,featuresCol:str,labelCol:str,:bool= )→pyspark.sql.dataframe.DataFrame

使用數據集執行皮爾森的獨立測試。

添加可選論點。

參數
數據集 pyspark.sql.DataFrame

DataFrame分類標簽和分類功能。實值特性將被視為分類為每一個不同的值。

featuresCol str

的名字列在數據集的特性,類型向量(VectorUDT)。

labelCol str

標簽的名字列在數據集,任何數值類型。

bool,可選

如果這是真的,將返回dataframe壓平。

返回
pyspark.sql.DataFrame

DataFrame包含每個特性的測試結果對標簽。如果平是真的,這個DataFrame將包含一行/特性有以下字段:

  • featureIndex: int

  • pValue:浮動

  • degreesOfFreedom: int

  • 統計數據:浮動

如果平是假的,這DataFrame將包含一行以下字段:

  • pValues:向量

  • degreesOfFreedom:數組(int)

  • 統計:向量

這些字段有一個值/功能。

例子

> > >pyspark.ml.linalg進口向量> > >pyspark.ml.stat進口ChiSquareTest> > >數據集=[[0,向量密集的([0,0,1])),(0,向量密集的([1,0,1])),(1,向量密集的([2,1,1])),(1,向量密集的([3,1,1))))> > >數據集=火花createDataFrame(數據集,(“標簽”,“特征”])> > >chiSqResult=ChiSquareTest測試(數據集,“特性”,“標簽”)> > >chiSqResult選擇(“degreesOfFreedom”)收集()(0]行(degreesOfFreedom = [3 1 0])> > >chiSqResult=ChiSquareTest測試(數據集,“特性”,“標簽”,真正的)> > >=chiSqResultorderBy(“featureIndex”)收集()> > >(0]統計4.0