取消
顯示的結果
而不是尋找
你的意思是:

模糊文本匹配的火花

manugarri
新的貢獻者二世

我有一個客戶提供數據列表,一個公司名稱的列表。

我必須將這些名稱與公司名稱的內部數據庫。客戶端列表可以裝入內存(大約10 k元素),但內部對hdfs數據集,我們使用火花accesing它。

我怎麼能去匹配客戶名單?我想做一個矩陣(RowMatrix) N x D元素,N端元素的數量和D是內部客戶名單的長度)和計算相似性對明智的。

我怎麼可以這樣在火花?任何幫助將非常歡迎。

10個回答10

MatiasRotenberg
新的貢獻者二世

就像她說的,你可以使用python庫文本匹配算法。

你甚至可以注冊功能和使用它作為一個udf在SQL。

manugarri
新的貢獻者二世

使用python udf Matias,以我的經驗是非常緩慢的。

hansonkx
新的貢獻者二世

如果你尋找一個不是非常複雜的解決方案,您可以使用2本機api Soundex和火花Levenshtein當作你的模糊匹配算法。

val joinedDF = accountDF。加入(accountDF2 levenshtein (accountDF(“名字”),accountDF2(“名字”))< 3 & & (accountDF (" id ") ! = = accountDF2 (" id ")))

joinedDF.show

hansonkx
新的貢獻者二世

對於那些正在尋找一個不太複雜的解決方案,您可以使用兩個火花api soundex和建成的levenshtein

val newDF = accountDF。加入(accountDF2 levenshtein (accountDF(“名字”),accountDF2(“名字”))< 3 & & (accountDF (" id ") ! = = accountDF2 (" id "))) newDF.show

Er__Ram_Saran_B
新的貢獻者二世

大問題模糊文本匹配的火花,這是獨特的話題,模糊邏輯的一部分。

謝謝

Baidu
map