03-15-201604:09我
我有一個客戶提供數據列表,一個公司名稱的列表。
我必須將這些名稱與公司名稱的內部數據庫。客戶端列表可以裝入內存(大約10 k元素),但內部對hdfs數據集,我們使用火花accesing它。
我怎麼能去匹配客戶名單?我想做一個矩陣(RowMatrix) N x D元素,N端元素的數量和D是內部客戶名單的長度)和計算相似性對明智的。
我怎麼可以這樣在火花?任何幫助將非常歡迎。
04-01-2016上午10:04
您可以使用python庫的火花。我建議使用毛茸茸、軟綿綿計算相似之處。
然後你隻需要加入內部數據集的客戶名單。如果你想確保你嚐試每一個客戶名單與內部數據集,那麼你可以做一個笛卡爾連接。但是可能會有一個更好的方法來減少的可能性,這樣你就可以更有效地使用一個連接,如假設內部數據集名稱相同的字母開始的客戶名單。你甚至可以嚐試多個傳遞內部數據集和嚐試更複雜的邏輯。
04-01-2016上午10:05
我不知道有任何解決方案的能夠這樣做,但有幾個談判已經完成在這個問題上,你可以找到如下。
https://spark-summit.org/2015/events/real-time-fuzzy-matching-with-spark-and-elastic-search/
https://spark-summit.org/2014/talk/fuzzy-matching-with-spark
04-01-201637點
是的,這兩個例子(頂部那些出現在google)引用一個說話基本上並不解釋如何實現任何事情。
08-09-201702:14點
好奇如果你發現了一個可行的解決方案。你的問題仍然是一個頂尖的當我穀歌它。我們正麵臨著類似的挑戰,希望能夠模糊匹配高容量個體在HDFS /蜂巢的列表。PySpark創造事物的思考,或實現彈性,但不想重新發明輪子如果有一些已經。之前我們需要標準化數據匹配,但那是另一回事了。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。