喬治。

pyspark.mllib.clustering。 喬治。

培養潛在狄利克雷分配(LDA)模型。

方法

火車抽樣[k maxIterations,…)

火車LDA模型。

方法的文檔

classmethod 火車 ( 抽樣:pyspark.rdd.RDD(元組(int,VectorLike]],k:int=10,maxIterations:int=20.,docConcentration:浮動=- 1.0,topicConcentration:浮動=- 1.0,種子:可選(int]=沒有一個,checkpointInterval:int=10,優化器:str=“新興市場” )pyspark.mllib.clustering.LDAModel

火車LDA模型。

參數
抽樣 pyspark.RDD

抽樣的文檔,文檔id和術語(詞)的元組數向量。數向量”一詞袋“與一個固定大小的詞彙(詞彙量大小是向量的長度)。文檔id必須是唯一的,> = 0。

k int,可選

數量的主題來推斷,即。,the number of soft cluster centers. (default: 10)

maxIterations int,可選

允許的最大迭代數。(默認值:20)

docConcentration 浮動,可選

濃度參數(通常叫“阿爾法”)之前放在文件的分布在主題(“θ”)。(默認值:-1.0)

topicConcentration 浮動,可選

濃度參數(通常叫“測試版”或“埃塔”)的前放置在主題的分布。(默認值:-1.0)

種子 int,可選

隨機種子集群初始化。基於係統時間設置為不產生種子。(默認值:無)

checkpointInterval int,可選

期檢查點之間(迭代)。(默認值:10)

優化器 str,可選

LDAOptimizer用來執行實際的計算。目前“新興市場”,“在線”支持。(默認:“新興市場”)