再保險:自動裝卸機-理解缺失的文件後……-磚- 8174

Larrio · ‎03-07-2023

你好,

關於自動裝卸機(基於https://docs.www.eheci.com/ingestion/auto-loader/schema.html),到目前為止我所理解的是當它檢測到一個模式更新流失敗,我必須重新運行它,讓它工作,沒關係。

但是一旦我重新運行它,它尋找丟失的文件,因此以下例外

引起的:com.databricks.sql.io。文件ReadException: Error while reading file s3://some-bucket/path/to/data/1999/10/20/***.parquet. [CLOUD_FILE_SOURCE_FILE_NOT_FOUND] A file notification was received for file: s3://some-bucket/path/to/data/1999/10/20/***.parquet but it does not exist anymore. Please ensure that files are not deleted before they are processed. To continue your stream, you can set the Spark SQL configuration spark.sql.files.ignoreMissingFiles to true.

它工作得很好當我ignoreMissingFiles設置為True。

我理解它失敗第一次檢測到一個變化,但是為什麼它第二次查找刪除文件自動裝卸機運行嗎?

的影響是什麼?我丟失數據嗎?

謝謝!

Debayan · ‎03-08-2023

嗨,我發現一個有趣的閱讀收到的同樣的錯誤:https://www.waitingforcode.com/apache-spark-sql/ignoring-files-issues-apache-spark-sql/read,讓我們知道如果這有幫助。

也請標記@Debayan你的下一個反應,將通知我,謝謝!

Larrio · ‎03-09-2023

你好@Debayan穆克吉

謝謝你的回答,我已經見過閱讀和很高興知道丟失的文件句柄。

但我的問題是自動裝卸機,為什麼我們會有丟失的文件呢?

Debayan · ‎03-12-2023

你好,

請確認您的集群配置嗎?此外,火花相依?

Larrio · ‎03-17-2023

嗨@Debayan穆克吉

配置(除了我沒有一個定製的火花以下行來讓它忽略了丟失的文件)

spark.sql.files。ignoreMissingFiles真實

集群配置

政策:無限製的多節點訪問模式:單用戶數據磚運行時版本:11.3 LTS (Scala 2.12,火花3.3.0)工作類型:r5d。超大工人:2 (64 GB內存8核)驅動程序類型:工人一樣(32 GB內存,4芯)

我使用統一目錄還是否有幫助。

磚

自動裝卸機——理解模式更新後失蹤的文件。