ChiSquareTest¶
-
類
pyspark.ml.stat。
ChiSquareTest
¶ -
進行皮爾遜的獨立測試每一個特性對標簽。對於每一個功能,(功能,標簽)對轉換為應急矩陣卡方統計量的計算。所有的標簽必須分類和特征值。
零假設是結果的發生是統計獨立的。
方法
測試
(數據集、featuresCol labelCol[,平])使用數據集執行皮爾森的獨立測試。
方法的文檔
-
靜態
測試
( 數據集:pyspark.sql.dataframe.DataFrame,featuresCol:str,labelCol:str,平:bool=假 )→pyspark.sql.dataframe.DataFrame¶ -
使用數據集執行皮爾森的獨立測試。
添加可選
平
論點。- 參數
-
-
數據集
pyspark.sql.DataFrame
-
DataFrame分類標簽和分類功能。實值特性將被視為分類為每一個不同的值。
- featuresCol str
-
的名字列在數據集的特性,類型向量(VectorUDT)。
- labelCol str
-
標簽的名字列在數據集,任何數值類型。
- 平 bool,可選
-
如果這是真的,將返回dataframe壓平。
-
數據集
- 返回
-
-
pyspark.sql.DataFrame
-
DataFrame包含每個特性的測試結果對標簽。如果平是真的,這個DataFrame將包含一行/特性有以下字段:
featureIndex: int
pValue:浮動
degreesOfFreedom: int
統計數據:浮動
如果平是假的,這DataFrame將包含一行以下字段:
pValues:向量
degreesOfFreedom:數組(int)
統計:向量
這些字段有一個值/功能。
-
例子
> > >從pyspark.ml.linalg進口向量> > >從pyspark.ml.stat進口ChiSquareTest> > >數據集=[[0,向量。密集的([0,0,1])),…(0,向量。密集的([1,0,1])),…(1,向量。密集的([2,1,1])),…(1,向量。密集的([3,1,1))))> > >數據集=火花。createDataFrame(數據集,(“標簽”,“特征”])> > >chiSqResult=ChiSquareTest。測試(數據集,“特性”,“標簽”)> > >chiSqResult。選擇(“degreesOfFreedom”)。收集()(0]行(degreesOfFreedom = [3 1 0])> > >chiSqResult=ChiSquareTest。測試(數據集,“特性”,“標簽”,真正的)> > >行=chiSqResult。orderBy(“featureIndex”)。收集()> > >行(0]。統計4.0
-
靜態