取消
顯示的結果
而不是尋找
你的意思是:

為類似生成組Id刪除處理dataframe列的值。

Adig
新的貢獻者三世

Inupt DataFrame

“‘

KeyName KeyCompare源

PapasMrtemis PapasMrtemis S1

PapasMrtemis帕帕斯,Mrtemis S1

帕帕斯,Mrtemis PapasMrtemis S2

帕帕斯,Mrtemis帕帕斯,Mrtemis S2

邁克爾邁克爾S1

RCore核心S1

RCore核心,R S2

“‘

名字是來自不同的源後做一個聯盟那些應用模糊匹配。現在不論來源需要一個相似的組Id值。

我想用pyspark。

輸出應該像下麵。

“‘

KeyName KeyCompare KeyId來源

PapasMrtemis PapasMrtemis S1 1

PapasMrtemis帕帕斯,Mrtemis S1 1

帕帕斯,Mrtemis PapasMrtemis S2 1

帕帕斯,Mrtemis帕帕斯,Mrtemis S2 1

邁克爾邁克爾S1 2

RCore核心S1 3

RCore核心,R S2 3

“‘

6個回答6

《不可饒恕》
重視貢獻三世

https://sparkbyexamples.com/pyspark/pyspark-distinct-to-drop-duplicates/

參考這個鏈接上麵可能與你的關心。希望這可以幫助在這種情況下

ajaypanday6781
尊敬的貢獻者二世

UmaMahesh1
尊敬的貢獻者三世

嗨@Adi dev,

你的要求可以很容易地通過使用dense_rank()函數。

作為你的數據看起來有點混亂,自己創建一個示例數據基於KeyName和分配一組id。如果你想分配基於其他列/ s組id,您可以添加訂單的相應條款。

輸入:

輸入

輸出:

輸出

希望這有助於…幹杯。

Kaniz
社區經理
社區經理

嗨@Adi dev(客戶),我們還沒有聽到來自你自從上次反應@Number四我@Ajay Pandey, @Uma Maheswara Rao Desula我檢查看看他們的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map