我使用磚自動裝卸機從ADLS gen2增量加載JSON文件目錄清單模式。所有源文件的時間戳。自動裝卸機工作完美的幾天與下麵的配置和休息第二天以下錯誤。
org.apache.spark。SparkException:工作階段失敗而終止:任務1階段7.0失敗了4次,最近的失敗:在舞台上失去了任務1.3 7.0 (TID 24)(10.150.38.137執行人0):. lang。IllegalArgumentException: java.net.URISyntaxException:相對路徑在絕對URI: 2022 - 04 - 27 t20:09:00(附完整的錯誤消息)
我刪除了檢查站,目標三角洲表和加載新的選項“cloudFiles.includeExistingFiles”:“真正的”。所有文件加載成功之後的增量加載相同的錯誤發生。
自動裝卸機配置
{“cloudFiles.format”:“json”、“cloudFiles。useNotifications”:“假”、“cloudFiles。inferColumnTypes”:“真正的”、“cloudFiles。schemaEvolutionMode”:“addNewColumns”、“cloudFiles.includeExistingFiles”:“false”}
路徑位置通過如下
raw_data_location: dbfs: / mnt / DEV-cdl-raw /數據/ storage-xxxxx / xxxx /
target_delta_table_location: dbfs: / mnt / DEV-cdl-bronze /數據/ storage-xxxxx / xxxx /
checkpoint_location: dbfs: / mnt / DEV-cdl-bronze /配置/自動裝卸機/ storage-xxxxx / xxxx /檢查站
schema_location: dbfs: / mnt / DEV-cdl-bronze / / storage-xxxxx / xxxx /元數據
StreamingQuery = StreamDF。writeStream \
.option (“checkpointLocation”, checkpoint_location) \
.option (“mergeSchema”,“真正的”)\
.queryName (f”AutoLoad_RawtoBronze_ {sourceFolderName} _ {sourceEntityName}”) \
.trigger (availableNow =真正的)\
.partitionBy targetPartitionByCol \
.start (target_delta_table_location)
有人能幫我嗎?
提前謝謝。
對我來說,這是相同的錯誤當越來越多的通過掛載點:
模式= StructType () \
閥門(“路徑”,StringType(),假)\
閥門(“modificationTime StringType(),假)\
閥門(“長度”,IntegerType(),假)\
閥門(“內容”,BinaryType(),真的)
df = spark.read.format (“binaryFile”) . schema \(模式)
.load (“dbfs: / mnt / bucket_name / […] / * / * .bag”)
IllegalArgumentException: java.net.URISyntaxException:相對路徑在絕對URI: 2022 - 11 - 16 - t22:01:49 + 0
肯定不夠,我有一些文件':'字符的名稱。順便說一句,磚建築師建議我們前陣子說,掛載點是過時的,和不能很好統一目錄權限方案,所以我試圖避免使用掛載點。
之前我們多次運行自動裝卸機非常相似的文件夾名稱沒有失敗。現在我們得到:
StreamingQueryException:工作階段失敗而終止:任務1階段1657.0失敗了4次,最近的失敗:在舞台上失去了任務1.3 1657.0 (TID 5451)(10.38.20.138執行人17):. lang。IllegalArgumentException: java.net.URISyntaxException:相對路徑在絕對URI: 2022 - 03 - 07 - t20:47:0
描述曆史
操作(最近在上麵)
合並
合並
添加列後,開始有問題
恢複
恢複
恢複
恢複
合並
合並