ChiSqSelector

pyspark.mllib.feature。 ChiSqSelector ( numTopFeatures:int=50,selectorType:str=“numTopFeatures”,百分位:浮動=0.1,玻璃鋼:浮動=0.05,羅斯福:浮動=0.05,fwe:浮動=0.05 )

創建一個ChiSquared功能選擇器。選擇器支持不同的選擇方法:numTopFeatures,百分位,玻璃鋼,羅斯福,fwe

  • numTopFeatures選擇一個固定數量的高級特性根據卡方測試。

  • 百分位相似但選擇所有功能的一小部分,而不是一個固定的數字。

  • 玻璃鋼選擇所有特性的假定值低於一個閾值,從而控製選擇的假陽性率。

  • 羅斯福使用Benjamini-Hochberg過程選擇所有功能的錯誤發現率低於一個閾值。

  • fwe選擇假定值低於一個閾值的所有功能。閾值由1 / numFeatures擴展,從而控製選擇的family-wise錯誤率。

默認情況下,選擇方法numTopFeatures,使用默認的特性設置為50。

例子

> > >pyspark.mllib.linalg進口SparseVector,DenseVector> > >pyspark.mllib.regression進口LabeledPoint> > >數據=sc並行化([LabeledPoint(0.0,SparseVector(3,{0:8.0,1:7.0})),LabeledPoint(1.0,SparseVector(3,{1:9.0,2:6.0})),LabeledPoint(1.0,(0.0,9.0,8.0]),LabeledPoint(2.0,(7.0,9.0,5.0]),LabeledPoint(2.0,(8.0,7.0,3.0])])> > >模型=ChiSqSelector(numTopFeatures=1)適合(數據)> > >模型變換(SparseVector(3,{1:9.0,2:6.0}))SparseVector ({})> > >模型變換(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])> > >模型=ChiSqSelector(selectorType=“玻璃鋼”,玻璃鋼=0.2)適合(數據)> > >模型變換(SparseVector(3,{1:9.0,2:6.0}))SparseVector ({})> > >模型變換(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])> > >模型=ChiSqSelector(selectorType=“百分比”,百分位=0.34)適合(數據)> > >模型變換(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])

方法

適合(數據)

返回一個ChiSquared功能選擇器。

setFdr(羅斯福)

設置羅斯福[0.0,1.0]由羅斯福特征選擇。

setFpr(玻璃鋼)

集玻璃鋼[0.0,1.0]玻璃鋼進行特征選擇。

setFwe(fwe)

設置FWE[0.0, 1.0]供FWE特征選擇。

setNumTopFeatures(numTopFeatures)

設置numTopFeature特征選擇的數量特性。

setPercentile(百分比)

設置百分比[0.0,1.0]特征選擇的百分比。

setSelectorType(selectorType)

ChisqSelector設置選擇器類型。

方法的文檔

適合 ( 數據:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint] )pyspark.mllib.feature.ChiSqSelectorModel

返回一個ChiSquared功能選擇器。

參數
數據 pyspark.RDDpyspark.mllib.regression.LabeledPoint

包含標簽數據集分類特性。實值特性將被視為分類為每一個不同的值。應用功能離散化之前使用這個函數。

setFdr ( 羅斯福:浮動 )pyspark.mllib.feature.ChiSqSelector

設置羅斯福[0.0,1.0]由羅斯福特征選擇。隻適用於當selectorType =“羅斯福”。

setFpr ( 玻璃鋼:浮動 )pyspark.mllib.feature.ChiSqSelector

集玻璃鋼[0.0,1.0]玻璃鋼進行特征選擇。隻適用於當selectorType =“玻璃鋼”。

setFwe ( fwe:浮動 )pyspark.mllib.feature.ChiSqSelector

設置FWE[0.0, 1.0]供FWE特征選擇。隻適用於當selectorType =“fwe”。

setNumTopFeatures ( numTopFeatures:int )pyspark.mllib.feature.ChiSqSelector

設置numTopFeature特征選擇的數量特性。隻適用於當selectorType =“numTopFeatures”。

setPercentile ( 百分位:浮動 )pyspark.mllib.feature.ChiSqSelector

設置百分比[0.0,1.0]特征選擇的百分比。隻適用於當selectorType =“百分比”。

setSelectorType ( selectorType:str )pyspark.mllib.feature.ChiSqSelector

ChisqSelector設置選擇器類型。支持選項:“numTopFeatures”(默認)、“百分比”、“玻璃鋼”、“羅斯福”、“fwe”。