取消
顯示的結果
而不是尋找
你的意思是:

為類似生成組Id刪除處理dataframe列的值。

Adig
新的貢獻者三世

Inupt DataFrame

“‘

KeyName KeyCompare源

PapasMrtemis PapasMrtemis S1

PapasMrtemis帕帕斯,Mrtemis S1

帕帕斯,Mrtemis PapasMrtemis S2

帕帕斯,Mrtemis帕帕斯,Mrtemis S2

邁克爾邁克爾S1

RCore核心S1

RCore核心,R S2

“‘

名字是來自不同的源後做一個聯盟那些應用模糊匹配。現在不論來源需要一個相似的組Id值。

我想用pyspark。

輸出應該像下麵。

“‘

KeyName KeyCompare KeyId來源

PapasMrtemis PapasMrtemis S1 1

PapasMrtemis帕帕斯,Mrtemis S1 1

帕帕斯,Mrtemis PapasMrtemis S2 1

帕帕斯,Mrtemis帕帕斯,Mrtemis S2 1

邁克爾邁克爾S1 2

RCore核心S1 3

RCore核心,R S2 3

“‘

6個回答6

自己的
貢獻者

使用哈希函數檢索列來生成唯一散列值的基礎上這些列的價值。如果相同的值將在兩行相同的哈希函數,然後將生成的係統不會允許它。因此,您將能夠獲得獨特的每條記錄刪除處理。

VaibB
貢獻者
  1. 創建一個UDF,你通過所有字段作為輸入,需要考慮一個獨特的行。
  2. 創建一個列表,根據“或”、“分裂。
  3. 排序列表和
  4. concat的所有元素列表中獲得“新領域”。
  5. 計算dense_rank基於導出字段。
  6. 刪除“新領域”。
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map