BisectingKMeans

pyspark.mllib.clustering。 BisectingKMeans

平分的k - means算法在紙上“比較文檔聚類技術”施泰因巴赫通過,Karypis,庫馬爾,修改以適應火花。該算法從單個集群包含所有點。迭代找到可分簇底部水平和使用k - means平分的,直到有k葉總或集群沒有葉簇是可分的。集群在同一水平的二等分步驟被組合在一起來提高並行性。如果平分所有可分簇底部水平會超過k葉集群、大集群獲得更高的優先級。

筆記

看到原來的紙[1]

1

施泰因巴赫,m . et al。”比較的文檔聚類技術。”(2000)。知識發現(KDD)文本挖掘研討會,2000http://glaros.dtc.umn.edu/gkhome/fetch/papers/docclusterKDDTMW00.pdf

方法

火車抽樣[k maxIterations,…)

二等分的k - means算法回歸模型。

方法的文檔

classmethod 火車 ( 抽樣:pyspark.rdd.RDD(VectorLike],k:int=4,maxIterations:int=20.,minDivisibleClusterSize:浮動=1.0,種子:int=- 1888008604 )pyspark.mllib.clustering.BisectingKMeansModel

二等分的k - means算法回歸模型。

參數
抽樣 pyspark.RDD

作為一個訓練點抽樣向量或可轉換序列類型。

k int,可選

所需的葉簇的數量。實際數量可能小如果沒有可分葉集群。(默認值:4)

maxIterations int,可選

最大數量的迭代允許分裂集群。(默認值:20)

minDivisibleClusterSize 浮動,可選

最小數量的點(如果> = 1.0)或最低比例的點(如果< 1.0)可分的集群。(默認值:1)

種子 int,可選

集群隨機種子值初始化。(默認:-1888008604名為[BisectingKMeans] . getname classOf。# #)