03-15-201604:09我
我有一個客戶提供數據列表,一個公司名稱的列表。
我必須將這些名稱與公司名稱的內部數據庫。客戶端列表可以裝入內存(大約10 k元素),但內部對hdfs數據集,我們使用火花accesing它。
我怎麼能去匹配客戶名單?我想做一個矩陣(RowMatrix) N x D元素,N端元素的數量和D是內部客戶名單的長度)和計算相似性對明智的。
我怎麼可以這樣在火花?任何幫助將非常歡迎。
08-10-201741我
就像她說的,你可以使用python庫文本匹配算法。
你甚至可以注冊功能和使用它作為一個udf在SQL。
08-10-201701:26。我
使用python udf Matias,以我的經驗是非常緩慢的。
11-29-2017上午11:01
如果你尋找一個不是非常複雜的解決方案,您可以使用2本機api Soundex和火花Levenshtein當作你的模糊匹配算法。
joinedDF.show
11-29-2017上午11:05
對於那些正在尋找一個不太複雜的解決方案,您可以使用兩個火花api soundex和建成的levenshtein
val newDF = accountDF。加入(accountDF2 levenshtein (accountDF(“名字”),accountDF2(“名字”))< 3 & & (accountDF (" id ") ! = = accountDF2 (" id "))) newDF.show
06-04-2019下午08:47
大問題模糊文本匹配的火花,這是獨特的話題,模糊邏輯的一部分。
謝謝
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。