再保險:讀/寫-磚- 32257並發問題

的 · ‎09-08-2022

嗨。

我認為它可以並發問題。從磚(一個讀線程和寫線程從另一個係統)

從一開始:

我讀12到16 csv文件(大約250 mb的)dataframe。df = spark.read。選項(“頭”,“假”)。選項(“分隔符”,”、“).option .option(“引用”、“”)(“多行”,“真實的”)。選項(“逃脫”,“\”)。選項(“dateFormat”、“yyyy-MM-dd 'HH: mm: ss 'Z”) . schema(模式). csv (partition_list)
打印的行數。print (df.count ())
dataframe保存到數據庫。df.write.format(δ).mode(覆蓋).option (“overwriteSchema”、“true”) .saveAsTable (f“{db_name} {table_name}”)。

這個過程是每天運行一次。

有時我收到這個錯誤:“調用oXXXX時發生一個錯誤。saveAsTable”(前2步總是正確的)工作。

有一個重要的時刻:當我從ADLS閱讀這些文件,他們中的一些人可以覆蓋另一個係統(根據文件的LastModified日期存儲)。

我將在附件添加錯誤輸出。

你知道會發生這個錯誤以及如何解決?

jose_gonzalez · ‎10-31-2022

錯誤信息顯示:

引起的:. lang。IllegalStateException:錯誤讀取輸入

com.univocity.parsers.common.input.DefaultCharInputReader.reloadBuffer (DefaultCharInputReader.java: 84)

com.univocity.parsers.common.input.AbstractCharInputReader.updateBuffer (AbstractCharInputReader.java: 203)

com.univocity.parsers.common.input.AbstractCharInputReader.nextChar (AbstractCharInputReader.java: 280)

com.univocity.parsers.common.input.DefaultCharAppender.appendUntil (DefaultCharAppender.java: 292)

com.univocity.parsers.common.input.ExpandingCharAppender.appendUntil (ExpandingCharAppender.java: 177)

com.univocity.parsers.csv.CsvParser.parseSingleDelimiterRecord (CsvParser.java: 194)

com.univocity.parsers.csv.CsvParser.parseRecord (CsvParser.java: 109)

com.univocity.parsers.common.AbstractParser.parseNext (AbstractParser.java: 581)

…34更

引起的:java。IOException: io。IOException:操作失敗:“條件使用HTTP頭(s)指定的條件不滿足。”,412,,https://ACCOUNT_NAME.dfs.core.windows.net/CONTAINER_NAME/INSTANCE_NAME/Tables/Custom/FOLDER_NAME/fil..。ConditionNotMet”指定的條件不滿足條件使用HTTP頭(s)。RequestId: d4a3e6af - 701 f - 003 - e - 3590 - b7b51a000000時間:2022 - 08 - 24 - t08:03:57.9309350z”

shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.services.ReadBufferWorker.run (ReadBufferWorker.java: 77)

…1

這是一個412錯誤消息。你能打開一個支持的機票和分享錯誤消息?存儲團隊應該能夠使日誌和提供更多的信息這是為什麼

FerArribas · ‎01-02-2023

嗨@Anastasiia Polianska,

我同意,它看起來像一個並發問題。很可能這個並發問題將造成一個錯誤的ETAG Azure存儲在HTTP調用API (https://azure.microsoft.com/de-de/blog/managing-concurrency-in-microsoft-azure-storage-2/)

並發性行為可以根據hadoop-azure庫文檔進行配置。圖書館是用來訪問ADLS (abfss)

當然這些鏈接將幫助您了解/解決你的問題:

謝謝。

費爾南多Arribas。

磚