01-10-2023於下午
嗨
我一直在試圖複製Kmeans結果沒有運氣
這是我的代碼片段:
從pyspark.ml。聚類進口KMeans
KMeans (featuresCol = featuresCol k =集群,麥克斯特= 40,種子= 1,tol = .00001)
誰能幫忙嗎?
01-19-202352我
這個問題是由於火花並行化,並不能保證相同的數據分配給每個分區。
我能夠解決這個問題,確保相同的數據分配給相同的分區:
df。重新分區(num_partitions,“ur_col_id”)
df.sortWithinPartitions (“ur_col_id”)
在原帖子查看解決方案
01-11-202301:11點
嗨,你收到任何錯誤嗎?請參考//www.eheci.com/tensorflow/clustering-and-k-means為例子。請讓我們知道這有幫助。
01-11-202301:20點
嗨Debaya
謝謝你的回答,它運行沒有任何問題。每次重新運行模式後,我得到了不同集群輸出即使應用種子和寬容我提到過在我的代碼片段。
我希望結果是一樣的,一旦你申請種子因為它刪除任何隨機性。我也增加迭代的數量沒有任何幫助。
有辦法複製引發的結果嗎?
謝謝
瑪拉
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。