KMeansModel

pyspark.mllib.clustering。 KMeansModel ( 中心:列表(VectorLike] )

源自於k - means聚類模型方法。

例子

> > >數據=數組([0.0,0.0,1.0,1.0,9.0,8.0,8.0,9.0])重塑(4,2)> > >模型=KMeans火車(sc並行化(數據),2,maxIterations=10,initializationMode=“隨機”,種子=50,initializationSteps=5,ε=1的軍醫)> > >模型預測(數組([0.0,0.0)))= =模型預測(數組([1.0,1.0)))真正的> > >模型預測(數組([8.0,9.0)))= =模型預測(數組([9.0,8.0)))真正的> > >模型k2> > >模型computeCost(sc並行化(數據))2.0> > >模型=KMeans火車(sc並行化(數據),2)> > >sparse_data=(SparseVector(3,{1:1.0}),SparseVector(3,{1:1.1}),SparseVector(3,{2:1.0}),SparseVector(3,{2:1.1})]> > >模型=KMeans火車(sc並行化(sparse_data),2,initializationMode=“k - means | |”,種子=50,initializationSteps=5,ε=1的軍醫)> > >模型預測(數組([0。,1。,0。)))= =模型預測(數組([0,1.1,0。)))真正的> > >模型預測(數組([0。,0。,1。)))= =模型預測(數組([0,0,1.1)))真正的> > >模型預測(sparse_data(0])= =模型預測(sparse_data(1])真正的> > >模型預測(sparse_data(2])= =模型預測(sparse_data(3])真正的> > >isinstance(模型clusterCenters,列表)真正的> > >進口操作係統,tempfile> > >路徑=tempfilemkdtemp()> > >模型保存(sc,路徑)> > >sameModel=KMeansModel負載(sc,路徑)> > >sameModel預測(sparse_data(0])= =模型預測(sparse_data(0])真正的> > >shutil進口rmtree> > >試一試:rmtree(路徑)除了OSError:通過
> > >數據=數組([- - - - - -383.1,- - - - - -382.9,28.7,31.2,366.2,367.3])重塑(3,2)> > >模型=KMeans火車(sc並行化(數據),3,maxIterations=0,initialModel=KMeansModel(((- - - - - -1000.0,- - - - - -1000.0),(5.0,5.0),(1000.0,1000.0))))> > >模型clusterCenters[陣列([-1000。,- - - - - -1000。]),數組([5。5 .]),陣列([1000。1000)]。

方法

computeCost(抽樣)

返回的k - means成本(指向最近的中心的距離平方的總和)模型在給定的數據。

負載(sc路徑)

從給定的路徑加載模型。

預測(x)

發現集群中的每個點屬於這個模型。

保存(sc路徑)

這個模型保存到給定的路徑。

屬性

clusterCenters

得到聚類中心,表示為一個列表的NumPy數組。

k

總數量的集群。

方法的文檔

computeCost ( 抽樣:pyspark.rdd.RDD(VectorLike] )→浮動

返回的k - means成本(指向最近的中心的距離平方的總和)模型在給定的數據。

參數
抽樣 :pyspark.RDD

的抽樣點來計算成本。

classmethod 負載 ( sc:pyspark.context.SparkContext,路徑:str )pyspark.mllib.clustering.KMeansModel

從給定的路徑加載模型。

預測 ( x:聯盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→聯盟(int,pyspark.rdd.RDD(int] ]

發現集群中的每個點屬於這個模型。

參數
x pyspark.mllib.linalg.Vectorpyspark.RDD

一個數據點(或抽樣點)來確定集群指數。pyspark.mllib.linalg.Vector可以使用等效替換對象(列表、元組、numpy.ndarray)。

返回
int或pyspark.RDD的整數

預測集群索引或抽樣的預測集群指數如果輸入是一個抽樣。

保存 ( sc:pyspark.context.SparkContext,路徑:str )→沒有

這個模型保存到給定的路徑。

屬性的文檔

clusterCenters

得到聚類中心,表示為一個列表的NumPy數組。

k

總數量的集群。