03-15-201604:09我
我有一個客戶提供數據列表,一個公司名稱的列表。
我必須將這些名稱與公司名稱的內部數據庫。客戶端列表可以裝入內存(大約10 k元素),但內部對hdfs數據集,我們使用火花accesing它。
我怎麼能去匹配客戶名單?我想做一個矩陣(RowMatrix) N x D元素,N端元素的數量和D是內部客戶名單的長度)和計算相似性對明智的。
我怎麼可以這樣在火花?任何幫助將非常歡迎。
09-14-202112:13我
您可以使用Zingg:火花基於開源工具https://github.com/zinggAI/zingg
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。