再保險:. lang。IllegalArgumentException: java.net.U…頁2 -磚- 34916

Prem1 · ‎08-10-2022

我使用磚自動裝卸機從ADLS gen2增量加載JSON文件目錄清單模式。所有源文件的時間戳。自動裝卸機工作完美的幾天與下麵的配置和休息第二天以下錯誤。

org.apache.spark。SparkException:工作階段失敗而終止:任務1階段7.0失敗了4次,最近的失敗:在舞台上失去了任務1.3 7.0 (TID 24)(10.150.38.137執行人0):. lang。IllegalArgumentException: java.net.URISyntaxException:相對路徑在絕對URI: 2022 - 04 - 27 t20:09:00(附完整的錯誤消息)

我刪除了檢查站,目標三角洲表和加載新的選項“cloudFiles.includeExistingFiles”:“真正的”。所有文件加載成功之後的增量加載相同的錯誤發生。

自動裝卸機配置

{“cloudFiles.format”:“json”、“cloudFiles。useNotifications”:“假”、“cloudFiles。inferColumnTypes”:“真正的”、“cloudFiles。schemaEvolutionMode”:“addNewColumns”、“cloudFiles.includeExistingFiles”:“false”}

路徑位置通過如下

raw_data_location: dbfs: / mnt / DEV-cdl-raw /數據/ storage-xxxxx / xxxx /

target_delta_table_location: dbfs: / mnt / DEV-cdl-bronze /數據/ storage-xxxxx / xxxx /

checkpoint_location: dbfs: / mnt / DEV-cdl-bronze /配置/自動裝卸機/ storage-xxxxx / xxxx /檢查站

schema_location: dbfs: / mnt / DEV-cdl-bronze / / storage-xxxxx / xxxx /元數據

StreamingQuery = StreamDF。writeStream \

.option (“checkpointLocation”, checkpoint_location) \

.option (“mergeSchema”,“真正的”)\

.queryName (f”AutoLoad_RawtoBronze_ {sourceFolderName} _ {sourceEntityName}”) \

.trigger (availableNow =真正的)\

.partitionBy targetPartitionByCol \

.start (target_delta_table_location)

有人能幫我嗎?

提前謝謝。

Vidula · ‎09-08-2022

你好@PREM KUMAR KUMMAN拉梅什

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

阿列克謝 · ‎09-09-2022

嗨@Vidula卡納

我可以從我這邊報告:我無法解決自動裝卸機的問題。我的日常工作,我第一次執行

os.walk (…)

在Python中,檢查是否有任何“結腸”命名的文件(和其他一些標準)。如果一切都很好,我使用自動裝卸機增量加載,我每次重新加載數據。

幸運的是,最大的塊數據很好,但我希望有一天這個問題將被修正。

B_Seibert · ‎11-21-2022

@Alexey起來更精確的你能告訴我們你是什麼意思,“我重新加載數據”?

阿列克謝 · ‎11-21-2022

我所說的重載加載該文件夾中的所有現有數據。正如上麵提到的:

如果沒有特殊的特征,使自動裝卸機失敗我們可以做:

' '

自動裝卸機= spark.readStream.format \ (“cloudFiles”)

.option (“cloudFiles。形式at", data_format) \

.option(“頭”,“真正的”)\

.option (“cloudFiles。schemaLocation \”, schema_location)

.option (“cloudFiles。allowOverwrites”、“真實”)\

.load(路徑)

' '

在第二種情況下,Autloader將失敗(至少從經驗中我們知道,它與結腸文件名),我們使用簡單的數據加載:

' '

df = spark.read.format data_format \

.option(“頭”,“真正的”)\

.load(路徑)

' '

這就是為什麼我提到,幸運的是,這個數據文件夾不是巨大和快速工作。

Andrei_Radulesc · ‎11-21-2022

對我來說,簡單的閱讀也拋出一個“. lang。IllegalArgumentException: java.net.URISyntaxException:相對路徑的絕對URI”異常與“:”當它遇到文件名稱:

df1 = spark.read.format (binaryFile) .load (“s3: / / bucket_name / * / * / * / * .bag”)

所以這個問題不解決。