取消
顯示的結果
而不是尋找
你的意思是:

最好的麵部識別數據庫/歐氏距離的比較快

davidmory38
新的因素

你好,

我試圖建立一個人臉識別程序,和我有一個API,這需要一個圖像的臉,吐出了一個向量編碼。我需要運行這個一百萬年的臉,將它們存儲在一個數據庫係統上線時,它應該麵對,得到一個向量和計算距離與其他所有向量找到最接近的一個。https://1921681001.id/

我聽到位置敏感哈希,麥https://19216811.cam/es意義,但我還能做些什麼在db的選擇和設計,使這些東西更快嗎?蒂雅

1回複1

Dan_Z
尊敬的貢獻者

你可以拚花/δ火花存儲。對於每一個麵對你會寫出一個記錄元數據的列,列的編碼向量數組,為哈希和其他列。您可以使用PandasUDF大規模分布式距離計算,可以得到快速的運行時間在一百萬條記錄。

的不確定如何想出散列標準,但如果你想出一些方法來本向量編碼,你可以添加一個列向量的拚花/δ表編碼本向量分為然後分區表(或多個箱子的組合)。如果你設置它,你可以確保你PandasUDF隻發現在分區/ bin密切匹配,這將加快比賽時間。不利的一麵是,你將錯過邊緣情況下一個向量放入一個分區,但其最近的比賽實際上是在另一個。

僅為一百萬條記錄,我建議避免裝箱,如果你需要,編碼你的數組需要減少他們的長度。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map