圖像應用的參考解決方案
本文及其附帶的筆記描述了分布式圖像模型推理的參考解決方案,該解決方案基於許多真實圖像應用程序共享的公共設置。這個設置假設您在對象存儲中存儲了許多圖像,並且可以選擇不斷地有新的圖像到達。假設您有幾個經過訓練的深度學習(DL)模型用於圖像分類和對象檢測——例如,MobileNetV2用於檢測用戶上傳的照片中的人體對象,以幫助保護隱私——並且您希望將這些DL模型應用於存儲的圖像。
您可以重新訓練模型並更新先前計算的預測。然而,加載大量圖像和應用DL模型既需要大量的I/ o操作,也需要大量的計算。幸運的是,推理工作負載是並行的,理論上可以很容易地分配。本指南將引導您完成一個實際的解決方案,它包含兩個主要階段:
ETL圖像到Delta表使用自動加載器
使用pandas UDF執行分布式推理
ETL圖像到Delta表使用自動加載器
對於圖像應用程序,包括訓練和推斷任務,Databricks建議將圖像ETL到Delta表中自動加載程序.自動加載程序有助於數據管理和自動處理不斷到達的新圖像。