ChiSqSelector¶
-
類
pyspark.mllib.feature。
ChiSqSelector
( numTopFeatures:int=50,selectorType:str=“numTopFeatures”,百分位:浮動=0.1,玻璃鋼:浮動=0.05,羅斯福:浮動=0.05,fwe:浮動=0.05 ) ¶ -
創建一個ChiSquared功能選擇器。選擇器支持不同的選擇方法:numTopFeatures,百分位,玻璃鋼,羅斯福,fwe。
numTopFeatures選擇一個固定數量的高級特性根據卡方測試。
百分位相似但選擇所有功能的一小部分,而不是一個固定的數字。
玻璃鋼選擇所有特性的假定值低於一個閾值,從而控製選擇的假陽性率。
羅斯福使用Benjamini-Hochberg過程選擇所有功能的錯誤發現率低於一個閾值。
fwe選擇假定值低於一個閾值的所有功能。閾值由1 / numFeatures擴展,從而控製選擇的family-wise錯誤率。
默認情況下,選擇方法numTopFeatures,使用默認的特性設置為50。
例子
> > >從pyspark.mllib.linalg進口SparseVector,DenseVector> > >從pyspark.mllib.regression進口LabeledPoint> > >數據=sc。並行化([…LabeledPoint(0.0,SparseVector(3,{0:8.0,1:7.0})),…LabeledPoint(1.0,SparseVector(3,{1:9.0,2:6.0})),…LabeledPoint(1.0,(0.0,9.0,8.0]),…LabeledPoint(2.0,(7.0,9.0,5.0]),…LabeledPoint(2.0,(8.0,7.0,3.0])…])> > >模型=ChiSqSelector(numTopFeatures=1)。適合(數據)> > >模型。變換(SparseVector(3,{1:9.0,2:6.0}))SparseVector ({})> > >模型。變換(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])> > >模型=ChiSqSelector(selectorType=“玻璃鋼”,玻璃鋼=0.2)。適合(數據)> > >模型。變換(SparseVector(3,{1:9.0,2:6.0}))SparseVector ({})> > >模型。變換(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])> > >模型=ChiSqSelector(selectorType=“百分比”,百分位=0.34)。適合(數據)> > >模型。變換(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])
方法
適合
(數據)返回一個ChiSquared功能選擇器。
setFdr
(羅斯福)設置羅斯福[0.0,1.0]由羅斯福特征選擇。
setFpr
(玻璃鋼)集玻璃鋼[0.0,1.0]玻璃鋼進行特征選擇。
setFwe
(fwe)設置FWE[0.0, 1.0]供FWE特征選擇。
setNumTopFeatures
(numTopFeatures)設置numTopFeature特征選擇的數量特性。
setPercentile
(百分比)設置百分比[0.0,1.0]特征選擇的百分比。
setSelectorType
(selectorType)ChisqSelector設置選擇器類型。
方法的文檔
-
適合
( 數據:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint] )→pyspark.mllib.feature.ChiSqSelectorModel ¶ -
返回一個ChiSquared功能選擇器。
- 參數
-
-
數據
pyspark.RDD
的pyspark.mllib.regression.LabeledPoint
-
包含標簽數據集分類特性。實值特性將被視為分類為每一個不同的值。應用功能離散化之前使用這個函數。
-
數據
-
setFdr
( 羅斯福:浮動 )→pyspark.mllib.feature.ChiSqSelector ¶ -
設置羅斯福[0.0,1.0]由羅斯福特征選擇。隻適用於當selectorType =“羅斯福”。
-
setFpr
( 玻璃鋼:浮動 )→pyspark.mllib.feature.ChiSqSelector ¶ -
集玻璃鋼[0.0,1.0]玻璃鋼進行特征選擇。隻適用於當selectorType =“玻璃鋼”。
-
setFwe
( fwe:浮動 )→pyspark.mllib.feature.ChiSqSelector ¶ -
設置FWE[0.0, 1.0]供FWE特征選擇。隻適用於當selectorType =“fwe”。
-
setNumTopFeatures
( numTopFeatures:int )→pyspark.mllib.feature.ChiSqSelector ¶ -
設置numTopFeature特征選擇的數量特性。隻適用於當selectorType =“numTopFeatures”。
-
setPercentile
( 百分位:浮動 )→pyspark.mllib.feature.ChiSqSelector ¶ -
設置百分比[0.0,1.0]特征選擇的百分比。隻適用於當selectorType =“百分比”。
-
setSelectorType
( selectorType:str )→pyspark.mllib.feature.ChiSqSelector ¶ -
ChisqSelector設置選擇器類型。支持選項:“numTopFeatures”(默認)、“百分比”、“玻璃鋼”、“羅斯福”、“fwe”。