你好,
關於自動裝卸機(基於https://docs.www.eheci.com/ingestion/auto-loader/schema.html),到目前為止我所理解的是當它檢測到一個模式更新流失敗,我必須重新運行它,讓它工作,沒關係。
但是一旦我重新運行它,它尋找丟失的文件,因此以下例外
引起的:com.databricks.sql.io。文件ReadException: Error while reading file s3://some-bucket/path/to/data/1999/10/20/***.parquet. [CLOUD_FILE_SOURCE_FILE_NOT_FOUND] A file notification was received for file: s3://some-bucket/path/to/data/1999/10/20/***.parquet but it does not exist anymore. Please ensure that files are not deleted before they are processed. To continue your stream, you can set the Spark SQL configuration spark.sql.files.ignoreMissingFiles to true.
它工作得很好當我ignoreMissingFiles設置為True。
我理解它失敗第一次檢測到一個變化,但是為什麼它第二次查找刪除文件自動裝卸機運行嗎?
的影響是什麼?我丟失數據嗎?
謝謝!