KMeansModel¶
-
類
pyspark.mllib.clustering。
KMeansModel
( 中心:列表(VectorLike] ) ¶ -
源自於k - means聚類模型方法。
例子
> > >數據=數組([0.0,0.0,1.0,1.0,9.0,8.0,8.0,9.0])。重塑(4,2)> > >模型=KMeans。火車(…sc。並行化(數據),2,maxIterations=10,initializationMode=“隨機”,…種子=50,initializationSteps=5,ε=1的軍醫)> > >模型。預測(數組([0.0,0.0)))= =模型。預測(數組([1.0,1.0)))真正的> > >模型。預測(數組([8.0,9.0)))= =模型。預測(數組([9.0,8.0)))真正的> > >模型。k2> > >模型。computeCost(sc。並行化(數據))2.0> > >模型=KMeans。火車(sc。並行化(數據),2)> > >sparse_data=(…SparseVector(3,{1:1.0}),…SparseVector(3,{1:1.1}),…SparseVector(3,{2:1.0}),…SparseVector(3,{2:1.1})…]> > >模型=KMeans。火車(sc。並行化(sparse_data),2,initializationMode=“k - means | |”,…種子=50,initializationSteps=5,ε=1的軍醫)> > >模型。預測(數組([0。,1。,0。)))= =模型。預測(數組([0,1.1,0。)))真正的> > >模型。預測(數組([0。,0。,1。)))= =模型。預測(數組([0,0,1.1)))真正的> > >模型。預測(sparse_data(0])= =模型。預測(sparse_data(1])真正的> > >模型。預測(sparse_data(2])= =模型。預測(sparse_data(3])真正的> > >isinstance(模型。clusterCenters,列表)真正的> > >進口操作係統,tempfile> > >路徑=tempfile。mkdtemp()> > >模型。保存(sc,路徑)> > >sameModel=KMeansModel。負載(sc,路徑)> > >sameModel。預測(sparse_data(0])= =模型。預測(sparse_data(0])真正的> > >從shutil進口rmtree> > >試一試:…rmtree(路徑)…除了OSError:…通過
> > >數據=數組([- - - - - -383.1,- - - - - -382.9,28.7,31.2,366.2,367.3])。重塑(3,2)> > >模型=KMeans。火車(sc。並行化(數據),3,maxIterations=0,…initialModel=KMeansModel(((- - - - - -1000.0,- - - - - -1000.0),(5.0,5.0),(1000.0,1000.0))))> > >模型。clusterCenters[陣列([-1000。,- - - - - -1000。]),數組([5。5 .]),陣列([1000。1000)]。
方法
computeCost
(抽樣)返回的k - means成本(指向最近的中心的距離平方的總和)模型在給定的數據。
負載
(sc路徑)從給定的路徑加載模型。
預測
(x)發現集群中的每個點屬於這個模型。
保存
(sc路徑)這個模型保存到給定的路徑。
屬性
得到聚類中心,表示為一個列表的NumPy數組。
總數量的集群。
方法的文檔
-
computeCost
( 抽樣:pyspark.rdd.RDD(VectorLike] )→浮動¶ -
返回的k - means成本(指向最近的中心的距離平方的總和)模型在給定的數據。
- 參數
-
-
抽樣
:
pyspark.RDD
-
的抽樣點來計算成本。
-
抽樣
:
-
classmethod
負載
( sc:pyspark.context.SparkContext,路徑:str )→pyspark.mllib.clustering.KMeansModel ¶ -
從給定的路徑加載模型。
-
預測
( x:聯盟(VectorLike,pyspark.rdd.RDD(VectorLike]] )→聯盟(int,pyspark.rdd.RDD(int] ] ¶ -
發現集群中的每個點屬於這個模型。
- 參數
-
-
x
pyspark.mllib.linalg.Vector
或pyspark.RDD
-
一個數據點(或抽樣點)來確定集群指數。
pyspark.mllib.linalg.Vector
可以使用等效替換對象(列表、元組、numpy.ndarray)。
-
x
- 返回
-
-
int或
pyspark.RDD
的整數 -
預測集群索引或抽樣的預測集群指數如果輸入是一個抽樣。
-
int或
-
保存
( sc:pyspark.context.SparkContext,路徑:str )→沒有¶ -
這個模型保存到給定的路徑。
屬性的文檔
-
clusterCenters
¶ -
得到聚類中心,表示為一個列表的NumPy數組。
-
k
¶ -
總數量的集群。
-