模糊文本匹配的火花-磚- 29805

manugarri · ‎03-15-2016

我有一個客戶提供數據列表,一個公司名稱的列表。

我必須將這些名稱與公司名稱的內部數據庫。客戶端列表可以裝入內存(大約10 k元素),但內部對hdfs數據集,我們使用火花accesing它。

我怎麼能去匹配客戶名單?我想做一個矩陣(RowMatrix) N x D元素,N端元素的數量和D是內部客戶名單的長度)和計算相似性對明智的。

我怎麼可以這樣在火花?任何幫助將非常歡迎。

User16765128951 · ‎04-01-2016

您可以使用python庫的火花。我建議使用毛茸茸、軟綿綿計算相似之處。

然後你隻需要加入內部數據集的客戶名單。如果你想確保你嚐試每一個客戶名單與內部數據集,那麼你可以做一個笛卡爾連接。但是可能會有一個更好的方法來減少的可能性,這樣你就可以更有效地使用一個連接,如假設內部數據集名稱相同的字母開始的客戶名單。你甚至可以嚐試多個傳遞內部數據集和嚐試更複雜的邏輯。

Bill_Chambers · ‎04-01-2016

我不知道有任何解決方案的能夠這樣做,但有幾個談判已經完成在這個問題上,你可以找到如下。

manugarri · ‎04-01-2016

是的,這兩個例子(頂部那些出現在google)引用一個說話基本上並不解釋如何實現任何事情。

PaulExter · ‎08-09-2017

好奇如果你發現了一個可行的解決方案。你的問題仍然是一個頂尖的當我穀歌它。我們正麵臨著類似的挑戰,希望能夠模糊匹配高容量個體在HDFS /蜂巢的列表。PySpark創造事物的思考,或實現彈性,但不想重新發明輪子如果有一些已經。之前我們需要標準化數據匹配,但那是另一回事了。