喬治。¶
-
類
pyspark.mllib.clustering。
喬治。
¶ -
培養潛在狄利克雷分配(LDA)模型。
方法
火車
抽樣[k maxIterations,…)火車LDA模型。
方法的文檔
-
classmethod
火車
( 抽樣:pyspark.rdd.RDD(元組(int,VectorLike]],k:int=10,maxIterations:int=20.,docConcentration:浮動=- 1.0,topicConcentration:浮動=- 1.0,種子:可選(int]=沒有一個,checkpointInterval:int=10,優化器:str=“新興市場” )→pyspark.mllib.clustering.LDAModel ¶ -
火車LDA模型。
- 參數
-
-
抽樣
pyspark.RDD
-
抽樣的文檔,文檔id和術語(詞)的元組數向量。數向量”一詞袋“與一個固定大小的詞彙(詞彙量大小是向量的長度)。文檔id必須是唯一的,> = 0。
- k int,可選
-
數量的主題來推斷,即。,the number of soft cluster centers. (default: 10)
- maxIterations int,可選
-
允許的最大迭代數。(默認值:20)
- docConcentration 浮動,可選
-
濃度參數(通常叫“阿爾法”)之前放在文件的分布在主題(“θ”)。(默認值:-1.0)
- topicConcentration 浮動,可選
-
濃度參數(通常叫“測試版”或“埃塔”)的前放置在主題的分布。(默認值:-1.0)
- 種子 int,可選
-
隨機種子集群初始化。基於係統時間設置為不產生種子。(默認值:無)
- checkpointInterval int,可選
-
期檢查點之間(迭代)。(默認值:10)
- 優化器 str,可選
-
LDAOptimizer用來執行實際的計算。目前“新興市場”,“在線”支持。(默認:“新興市場”)
-
抽樣
-
classmethod