圖像應用的參考解決方案

本文及其附帶的筆記描述了分布式圖像模型推理的參考解決方案,該解決方案基於許多真實圖像應用程序共享的公共設置。這個設置假設您在對象存儲中存儲了許多圖像,並且可以選擇不斷地有新的圖像到達。假設您有幾個經過訓練的深度學習(DL)模型用於圖像分類和對象檢測——例如,MobileNetV2用於檢測用戶上傳的照片中的人體對象,以幫助保護隱私——並且您希望將這些DL模型應用於存儲的圖像。

您可以重新訓練模型並更新先前計算的預測。然而,加載大量圖像和應用DL模型既需要大量的I/ o操作,也需要大量的計算。幸運的是,推理工作負載是並行的,理論上可以很容易地分配。本指南將引導您完成一個實際的解決方案,它包含兩個主要階段:

  1. ETL圖像到Delta表使用自動加載器

  2. 使用pandas UDF執行分布式推理

ETL圖像到Delta表使用自動加載器

對於圖像應用程序,包括訓練和推斷任務,Databricks建議將圖像ETL到Delta表中自動加載程序.自動加載程序有助於數據管理和自動處理不斷到達的新圖像。

ETL圖像數據集轉換為Delta表筆記本

在新標簽頁打開筆記本

使用pandas UDF執行分布式推理

下麵的筆記本使用PyTorch和TensorFlow tf。Keras演示參考解決方案。

通過Pytorch和pandas UDF筆記本進行分布式推理

在新標簽頁打開筆記本

通過Keras和pandas UDF筆記本進行分布式推理

在新標簽頁打開筆記本

限製

對於較大的圖像文件(平均圖像大小大於100mb), Databricks建議隻使用Delta表來管理元數據(文件名列表),並在需要時使用它們的路徑從對象存儲中加載圖像。