IDFModel¶
-
類
pyspark.mllib.feature。
IDFModel
( java_model:py4j.java_gateway.JavaObject ) ¶ -
代表一個IDF模型,可以變換頻率向量。
方法
調用
(名字,*一個)調用的方法java_model
docFreq
()返回文檔頻率。
以色列國防軍
()返回當前IDF向量。
numDocs
()返回的文檔數計算idf評估
變換
(x)轉換詞頻率(TF)向量TF-IDF向量。
方法的文檔
-
調用
( 的名字:str,*一個:任何 )→任何¶ -
調用的方法java_model
-
docFreq
( )→列表(int] ¶ -
返回文檔頻率。
-
以色列國防軍
( )→pyspark.mllib.linalg.Vector ¶ -
返回當前IDF向量。
-
numDocs
( )→int¶ -
返回的文檔數計算idf評估
-
變換
( x:聯盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→聯盟( pyspark.mllib.linalg.Vector ,pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ] ¶ -
轉換詞頻率(TF)向量TF-IDF向量。
如果minDocFreq定在以色列國防軍計算,發生在不到的條款minDocFreq文件都有一個條目為0。
- 參數
-
-
x
pyspark.mllib.linalg.Vector
或pyspark.RDD
-
項頻率向量或一項的抽樣頻率向量
-
x
- 返回
-
-
pyspark.mllib.linalg.Vector
或pyspark.RDD
-
抽樣TF-IDF向量或TF-IDF向量
-
筆記
在Python中,改變目前不能使用在一個抽樣轉換或行動。直接調用轉換的抽樣。
-