NoScope:優化視頻神經網絡查詢的規模
摘要
計算機視覺的最新進展——以深度神經網絡的形式——使得對不斷增長的視頻數據進行高精度查詢成為可能。然而,神經網絡推斷在規模上的計算成本很高:對單個視頻實時應用最先進的對象檢測器(即每秒30幀以上)需要4000美元的GPU。為此,我們提出了NOSCOPE,一個用於查詢視頻的係統,通過推理優化模型搜索,可以將神經網絡視頻分析的成本降低最多三個數量級。給定一個目標視頻、要檢測的對象和參考神經網絡,NOSCOPE自動搜索和訓練一個序列或級聯模型,該模型保留了參考網絡的精度,但專門針對目標視頻,因此計算成本要低得多。NOSCOPE級聯兩種類型的模型:放棄參考模型的全部一般性,但忠實地模仿目標視頻和對象的行為的專門模型;還有區別檢測器,可以突出不同幀之間的時間差異。我們展示了最佳級聯架構在不同的視頻和對象中是不同的,所以NOSCOPE使用了一個高效的基於成本的優化器來搜索模型和級聯。通過這種方法,NOSCOPE在固定角度網絡攝像頭和監控視頻的二元分類任務上實現了2到3個數量級的加速(265- 15500 ×實時),同時保持在最先進的神經網絡的1-5%以內的精度。