生成類似刪除處理的組Id值啊……頁2 -磚- 21060

Adig · ‎11-22-2022

Inupt DataFrame

“‘

KeyName KeyCompare源

PapasMrtemis PapasMrtemis S1

PapasMrtemis帕帕斯,Mrtemis S1

帕帕斯,Mrtemis PapasMrtemis S2

帕帕斯,Mrtemis帕帕斯,Mrtemis S2

邁克爾邁克爾S1

RCore核心S1

RCore核心,R S2

“‘

名字是來自不同的源後做一個聯盟那些應用模糊匹配。現在不論來源需要一個相似的組Id值。

我想用pyspark。

輸出應該像下麵。

“‘

KeyName KeyCompare KeyId來源

PapasMrtemis PapasMrtemis S1 1

PapasMrtemis帕帕斯,Mrtemis S1 1

帕帕斯,Mrtemis PapasMrtemis S2 1

帕帕斯,Mrtemis帕帕斯,Mrtemis S2 1

邁克爾邁克爾S1 2

RCore核心S1 3

RCore核心,R S2 3

“‘

自己的 · ‎11-29-2022

使用哈希函數檢索列來生成唯一散列值的基礎上這些列的價值。如果相同的值將在兩行相同的哈希函數,然後將生成的係統不會允許它。因此,您將能夠獲得獨特的每條記錄刪除處理。

VaibB · ‎12-02-2022

磚