BisectingKMeansModel

pyspark.mllib.clustering。 BisectingKMeansModel ( java_model:JavaObject )

來源於平分k - means聚類模型方法。

例子

> > >數據=數組([0.0,0.0,1.0,1.0,9.0,8.0,8.0,9.0])重塑(4,2)> > >bskm=BisectingKMeans()> > >模型=bskm火車(sc並行化(數據,2),k=4)> > >p=數組([0.0,0.0])> > >模型預測(p)0> > >模型k4> > >模型computeCost(p)0.0

方法

調用(名字,*一個)

調用的方法java_model

computeCost(x)

返回平分k - means成本(指向最近的中心的距離平方的總和)模型在給定的數據。

預測(x)

發現集群中的每個點屬於這個模型。

屬性

clusterCenters

得到聚類中心,表示為一個列表的NumPy數組。

k

集群的數量

方法的文檔

調用 ( 的名字:str,*一個:任何 )→任何

調用的方法java_model

computeCost ( x:聯盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→浮動

返回平分k - means成本(指向最近的中心的距離平方的總和)模型在給定的數據。如果提供一個抽樣點的返回和。

參數
pyspark.mllib.linalg.Vectorpyspark.RDD

一個數據點(或抽樣點)來計算成本。pyspark.mllib.linalg.Vector可以使用等效替換對象(列表、元組、numpy.ndarray)。

預測 ( x:聯盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→聯盟(int,pyspark.rdd.RDD(int] ]

發現集群中的每個點屬於這個模型。

參數
x pyspark.mllib.linalg.Vectorpyspark.RDD

一個數據點(或抽樣點)來確定集群指數。pyspark.mllib.linalg.Vector可以使用等效替換對象(列表、元組、numpy.ndarray)。

返回
int或pyspark.RDD的整數

預測集群索引或抽樣的預測集群指數如果輸入是一個抽樣。

屬性的文檔

clusterCenters

得到聚類中心,表示為一個列表的NumPy數組。

k

集群的數量