ChiSquareTest¶

類 pyspark.ml.stat。 ChiSquareTest ¶

進行皮爾遜的獨立測試每一個特性對標簽。對於每一個功能,(功能,標簽)對轉換為應急矩陣卡方統計量的計算。所有的標簽必須分類和特征值。

零假設是結果的發生是統計獨立的。

方法

測試(數據集、featuresCol labelCol[,平])

使用數據集執行皮爾森的獨立測試。

方法的文檔

靜態 測試 ( 數據集:pyspark.sql.dataframe.DataFrame,featuresCol:str,labelCol:str,平:bool=假 )→pyspark.sql.dataframe.DataFrame¶

使用數據集執行皮爾森的獨立測試。

添加可選平論點。

參數

數據集 pyspark.sql.DataFrame: DataFrame分類標簽和分類功能。實值特性將被視為分類為每一個不同的值。
featuresCol str: 的名字列在數據集的特性,類型向量(VectorUDT)。
labelCol str: 標簽的名字列在數據集,任何數值類型。
平 bool,可選: 如果這是真的,將返回dataframe壓平。

返回

pyspark.sql.DataFrame

DataFrame包含每個特性的測試結果對標簽。如果平是真的,這個DataFrame將包含一行/特性有以下字段:

featureIndex: int
pValue:浮動
degreesOfFreedom: int
統計數據:浮動

如果平是假的,這DataFrame將包含一行以下字段:

pValues:向量
degreesOfFreedom:數組(int)
統計:向量

這些字段有一個值/功能。

例子

             > > >從pyspark.ml.linalg進口向量> > >從pyspark.ml.stat進口ChiSquareTest> > >數據集=[[0,向量。密集的([0,0,1])),…(0,向量。密集的([1,0,1])),…(1,向量。密集的([2,1,1])),…(1,向量。密集的([3,1,1))))> > >數據集=火花。createDataFrame(數據集,(“標簽”,“特征”])> > >chiSqResult=ChiSquareTest。測試(數據集,“特性”,“標簽”)> > >chiSqResult。選擇(“degreesOfFreedom”)。收集()(0]行(degreesOfFreedom = [3 1 0])> > >chiSqResult=ChiSquareTest。測試(數據集,“特性”,“標簽”,真正的)> > >行=chiSqResult。orderBy(“featureIndex”)。收集()> > >行(0]。統計4.0
            

以前的

FMRegressionModel

下一個

相關