IDFModel

pyspark.mllib.feature。 IDFModel ( java_model:py4j.java_gateway.JavaObject )

代表一個IDF模型,可以變換頻率向量。

方法

調用(名字,*一個)

調用的方法java_model

docFreq()

返回文檔頻率。

以色列國防軍()

返回當前IDF向量。

numDocs()

返回的文檔數計算idf評估

變換(x)

轉換詞頻率(TF)向量TF-IDF向量。

方法的文檔

調用 ( 的名字:str,*一個:任何 )→任何

調用的方法java_model

docFreq ( )→列表(int]

返回文檔頻率。

以色列國防軍 ( )pyspark.mllib.linalg.Vector

返回當前IDF向量。

numDocs ( )→int

返回的文檔數計算idf評估

變換 ( x:聯盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→聯盟( pyspark.mllib.linalg.Vector ,pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ]

轉換詞頻率(TF)向量TF-IDF向量。

如果minDocFreq定在以色列國防軍計算,發生在不到的條款minDocFreq文件都有一個條目為0。

參數
x pyspark.mllib.linalg.Vectorpyspark.RDD

項頻率向量或一項的抽樣頻率向量

返回
pyspark.mllib.linalg.Vectorpyspark.RDD

抽樣TF-IDF向量或TF-IDF向量

筆記

在Python中,改變目前不能使用在一個抽樣轉換或行動。直接調用轉換的抽樣。