PowerIterationClustering

pyspark.mllib.clustering。 PowerIterationClustering

迭代聚類(圖片),一個可伸縮的圖聚類算法。

由林和科恩[1]。從抽象:

“圖片發現一個非常低維嵌入的數據集使用截斷電力迭代規範化成對相似矩陣的數據。”

1

林,弗蘭克&科恩,威廉。(2010)。迭代聚類。http://www.cs.cmu.edu/弗蘭克/論文/ icml2010-pic-final.pdf

方法

火車抽樣,k [、maxIterations initMode])

火車PowerIterationClusteringModel

方法的文檔

classmethod 火車 ( 抽樣:pyspark.rdd.RDD(元組(int,int,浮動]],k:int,maxIterations:int=One hundred.,initMode:str=“隨機” )pyspark.mllib.clustering.PowerIterationClusteringModel

火車PowerIterationClusteringModel

參數
抽樣 pyspark.RDD

(i, j s的抽樣ij)元組代表關聯矩陣,矩陣A的圖片。相似的年代ij必須是負的。這是一個對稱矩陣,因此ij=年代對於任何(i, j)和非零相似,應該是(i, j sij)或(j,我,s)的輸入。元組和i = j將被忽略,因為它是假定ij= 0.0。

k int

數量的集群。

maxIterations int,可選

圖片的最大迭代次數的算法。(默認:100)

initMode str,可選

初始化模式。這可以是“隨機”使用一個隨機向量作為頂點屬性,或“學位”使用規範化和相似之處。(默認值是“隨機”)