取消
顯示的結果
而不是尋找
你的意思是:

無法複製Kmeans聚類結果即使設置種子和寬容

瑪拉
新的貢獻者三世

我一直在試圖複製Kmeans結果沒有運氣

這是我的代碼片段:

從pyspark.ml。聚類進口KMeans

KMeans (featuresCol = featuresCol k =集群,麥克斯特= 40,種子= 1,tol = .00001)

誰能幫忙嗎?

1接受解決方案

接受的解決方案

瑪拉
新的貢獻者三世

這個問題是由於火花並行化,並不能保證相同的數據分配給每個分區。

我能夠解決這個問題,確保相同的數據分配給相同的分區:

df。重新分區(num_partitions,“ur_col_id”)

df.sortWithinPartitions (“ur_col_id”)

在原帖子查看解決方案

3回複3

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨,你收到任何錯誤嗎?請參考//www.eheci.com/tensorflow/clustering-and-k-means為例子。請讓我們知道這有幫助。

瑪拉
新的貢獻者三世

嗨Debaya

謝謝你的回答,它運行沒有任何問題。每次重新運行模式後,我得到了不同集群輸出即使應用種子和寬容我提到過在我的代碼片段。

我希望結果是一樣的,一旦你申請種子因為它刪除任何隨機性。我也增加迭代的數量沒有任何幫助。

有辦法複製引發的結果嗎?

謝謝

瑪拉

瑪拉
新的貢獻者三世

這個問題是由於火花並行化,並不能保證相同的數據分配給每個分區。

我能夠解決這個問題,確保相同的數據分配給相同的分區:

df。重新分區(num_partitions,“ur_col_id”)

df.sortWithinPartitions (“ur_col_id”)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map