取消
顯示的結果
而不是尋找
你的意思是:

. lang。IllegalArgumentException: java.net.URISyntaxException

Prem1
新的貢獻者三世

我使用磚自動裝卸機從ADLS gen2增量加載JSON文件目錄清單模式。所有源文件的時間戳。自動裝卸機工作完美的幾天與下麵的配置和休息第二天以下錯誤。

org.apache.spark。SparkException:工作階段失敗而終止:任務1階段7.0失敗了4次,最近的失敗:在舞台上失去了任務1.3 7.0 (TID 24)(10.150.38.137執行人0):. lang。IllegalArgumentException: java.net.URISyntaxException:相對路徑在絕對URI: 2022 - 04 - 27 t20:09:00(附完整的錯誤消息)

我刪除了檢查站,目標三角洲表和加載新的選項“cloudFiles.includeExistingFiles”:“真正的”。所有文件加載成功之後的增量加載相同的錯誤發生。

自動裝卸機配置

{“cloudFiles.format”:“json”、“cloudFiles。useNotifications”:“假”、“cloudFiles。inferColumnTypes”:“真正的”、“cloudFiles。schemaEvolutionMode”:“addNewColumns”、“cloudFiles.includeExistingFiles”:“false”}

路徑位置通過如下

raw_data_location: dbfs: / mnt / DEV-cdl-raw /數據/ storage-xxxxx / xxxx /

target_delta_table_location: dbfs: / mnt / DEV-cdl-bronze /數據/ storage-xxxxx / xxxx /

checkpoint_location: dbfs: / mnt / DEV-cdl-bronze /配置/自動裝卸機/ storage-xxxxx / xxxx /檢查站

schema_location: dbfs: / mnt / DEV-cdl-bronze / / storage-xxxxx / xxxx /元數據

StreamingQuery = StreamDF。writeStream \

.option (“checkpointLocation”, checkpoint_location) \

.option (“mergeSchema”,“真正的”)\

.queryName (f”AutoLoad_RawtoBronze_ {sourceFolderName} _ {sourceEntityName}”) \

.trigger (availableNow =真正的)\

.partitionBy targetPartitionByCol \

.start (target_delta_table_location)

有人能幫我嗎?

提前謝謝。

21日回複21

謝謝你分享你的經驗。將設置useIncrementalListing在某種程度上改變你的處理策略?我認為這隻是為了性能改進,不是嗎?我真的不太清楚。但實際上看起來更像一個錯誤,那將是固定的一天。這將是偉大的如果有人從磚評論時這是固定的。

jshields
新的貢獻者二世

它不一定會改變我是如何處理這些文件,但是如果我理解正確的文檔,由於它如何隨著時間的推移,它可能會增加成本將不得不批api請求檢查新文件的存儲層。

我不知道會花多長時間在這些成本的增加會明顯(也許從來沒有體積)。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map