Inupt DataFrame
“‘
KeyName KeyCompare源
PapasMrtemis PapasMrtemis S1
PapasMrtemis帕帕斯,Mrtemis S1
帕帕斯,Mrtemis PapasMrtemis S2
帕帕斯,Mrtemis帕帕斯,Mrtemis S2
邁克爾邁克爾S1
RCore核心S1
RCore核心,R S2
“‘
名字是來自不同的源後做一個聯盟那些應用模糊匹配。現在不論來源需要一個相似的組Id值。
我想用pyspark。
輸出應該像下麵。
“‘
KeyName KeyCompare KeyId來源
PapasMrtemis PapasMrtemis S1 1
PapasMrtemis帕帕斯,Mrtemis S1 1
帕帕斯,Mrtemis PapasMrtemis S2 1
帕帕斯,Mrtemis帕帕斯,Mrtemis S2 1
邁克爾邁克爾S1 2
RCore核心S1 3
RCore核心,R S2 3
“‘