解決:Re:無法複製Kmeans聚類結果……-磚- 12766 - beplay体育赛事,Beplay体育安卓版本

嗨

我一直在試圖複製Kmeans結果沒有運氣

這是我的代碼片段:

從pyspark.ml。聚類進口KMeans

KMeans (featuresCol = featuresCol k =集群,麥克斯特= 40,種子= 1,tol = .00001)

誰能幫忙嗎?

1接受解決方案

接受的解決方案

這個問題是由於火花並行化,並不能保證相同的數據分配給每個分區。

我能夠解決這個問題,確保相同的數據分配給相同的分區:

df。重新分區(num_partitions,“ur_col_id”)

df.sortWithinPartitions (“ur_col_id”)

在原帖子查看解決方案

3回複3

嗨,你收到任何錯誤嗎?請參考//www.eheci.com/tensorflow/clustering-and-k-means為例子。請讓我們知道這有幫助。

嗨Debaya

謝謝你的回答,它運行沒有任何問題。每次重新運行模式後,我得到了不同集群輸出即使應用種子和寬容我提到過在我的代碼片段。

我希望結果是一樣的,一旦你申請種子因為它刪除任何隨機性。我也增加迭代的數量沒有任何幫助。

有辦法複製引發的結果嗎?

謝謝

瑪拉

這個問題是由於火花並行化,並不能保證相同的數據分配給每個分區。

我能夠解決這個問題,確保相同的數據分配給相同的分區:

df。重新分區(num_partitions,“ur_col_id”)

df.sortWithinPartitions (“ur_col_id”)

從未顯出

你必須在添加附件簽署

從未顯出

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。