嗨
我使用一個自動裝卸機Azure磚:
df = (spark.readStream.format (“cloudFiles”)
.options (* * cloudfile)
.load (“abfss: / / dev@std * * * * * *.dfs.core.windows.net/ * * / * * * * *))
在我的目標checkpointLocation文件夾有一些文件和子目錄創建的結果。
它將檢測和處理新文件就可以了。
還當我重新啟動集群,將再次過程隻有新文件,這是好的。
但是如果我想重新啟動自動裝卸機為了處理文檔源文件夾的所有文件我又找不到任何如何這樣做。
有人可以請給我一個暗示。