HashingTF¶
-
類
pyspark.mllib.feature。
HashingTF
( numFeatures:int=1048576 ) ¶ -
一係列術語映射到他們的詞頻率使用哈希的訣竅。
- 參數
-
- numFeatures int,可選
-
的功能(默認值:2 ^ 20)
筆記
條款必須hashable(不能dict /設置/列表…)。
例子
> > >信托基金=HashingTF(One hundred.)> > >醫生=“一個b b c d”。分裂(”“)> > >信托基金。變換(醫生)SparseVector(100年,{…})
方法
indexOf
(術語)返回輸入項的索引。
setBinary
(值)如果這是真的,項頻率向量將二進製,非零項數設置為1(默認值:False)
變換
(文檔)轉換輸入文檔(列表)詞頻率向量,或轉換文檔抽樣的抽樣頻率向量。
方法的文檔
-
indexOf
( 術語:Hashable )→int¶ -
返回輸入項的索引。
-
setBinary
( 價值:bool )→pyspark.mllib.feature.HashingTF ¶ -
如果這是真的,項頻率向量將二進製,非零項數設置為1(默認值:False)
-
變換
( 文檔:聯盟(Iterable(Hashable],pyspark.rdd.RDD(Iterable(Hashable]]] )→聯盟( pyspark.mllib.linalg.Vector ,pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ] ¶ -
轉換輸入文檔(列表)詞頻率向量,或轉換文檔抽樣的抽樣頻率向量。