HashingTF

pyspark.mllib.feature。 HashingTF ( numFeatures:int=1048576 )

一係列術語映射到他們的詞頻率使用哈希的訣竅。

參數
numFeatures int,可選

的功能(默認值:2 ^ 20)

筆記

條款必須hashable(不能dict /設置/列表…)。

例子

> > >信托基金=HashingTF(One hundred.)> > >醫生=“一個b b c d”分裂(”“)> > >信托基金變換(醫生)SparseVector(100年,{…})

方法

indexOf(術語)

返回輸入項的索引。

setBinary(值)

如果這是真的,項頻率向量將二進製,非零項數設置為1(默認值:False)

變換(文檔)

轉換輸入文檔(列表)詞頻率向量,或轉換文檔抽樣的抽樣頻率向量。

方法的文檔

indexOf ( 術語:Hashable )→int

返回輸入項的索引。

setBinary ( 價值:bool )pyspark.mllib.feature.HashingTF

如果這是真的,項頻率向量將二進製,非零項數設置為1(默認值:False)

變換 ( 文檔:聯盟(Iterable(Hashable],pyspark.rdd.RDD(Iterable(Hashable]]] )→聯盟( pyspark.mllib.linalg.Vector ,pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ]

轉換輸入文檔(列表)詞頻率向量,或轉換文檔抽樣的抽樣頻率向量。