計算機視覺項目,我的原始數據由加密視頻(60 fps)存儲在Azure Blob存儲。為了使數據用於模型訓練,我需要做一些預處理和我需要視頻分成單獨的幀。視頻加密但我可以通過FFmpeg的加密密鑰解密視頻文件。我已經找到一種方法來“管”FFmpeg(幀數)的輸出發送到stdout,可以通過python FFmpeg庫拿起。問題在於,即使是幾分鍾的視頻中,一個集群有112 gb內存已經跑到伯父錯誤。
我試著什麼:
我想要的:
從視頻中提取幀和管產生的幀pyspark DF進行進一步處理,不需要一個巨大的集群,隻能進行預處理幾分鍾的視頻(使它非常昂貴)。我非常開放使用不同的庫和不同的配置,任何方式都可以讓我做我想做的任務是我想嚐試!
行數據的示例:
container_name:“sample_container_name”
文件名:“/ dbfs / mnt /…/…/ ....... / video.mp4x”
持續時間:25.6
身高:1080
寬度:1920
#嚐試與時間間隔(以秒為單位,這意味著每間隔間隔5秒= 300幀)
開始:0
結束:5
嗨@Vidula卡納
希望你做的好!我還沒有真正能夠解決我的問題在解決上麵提到的,有一個非常低的視頻處理時間與一個大型虛擬機,所以我考慮這個問題還沒有解決(我不喜歡我自己的答案標記為最好,特別是當它是如此不完美)。如果你能提供更多的指向一個更好的解決方案,當然會非常歡迎!