我遇到以下錯誤。我用microbatch自動裝卸機。請幫助糾正這個問題
. lang。AssertionError:斷言失敗:無效的批處理:# 36188,modificationTime # 36189, # 36190 l長度,內容# 36191,提供者# 36192,# 36193,位置請求# 36194,# 36195,# 36196,# 36197,# 36198,# 36199,# 36200第二! # 40036 =路徑,modificationTime # 40037, # 40038 l長度,內容# 40039
你好@Ayesha Rahmatali請您讓我知道您正在使用的DBR版本?
就可能發生以下錯誤如果新的分區列被推斷從你的文件導致這個問題。
如果是這種情況,為了解決這個問題,請提供所有分區列在你的模式或提供分區列的列表,你想提取值通過使用:.option (“cloudFiles。partitionColumns”、“< comma-separated-list |空字符串>”。自動裝卸機推斷分區列是空的。使用cloudFiles。partitionColumns的顯式解析列目錄結構。
輸入的更多信息,請參考下麵的文檔。
參考:https://docs.www.eheci.com/spark/latest/structured-streaming/auto-loader-schema.html
你好卡
謝謝你的回複。沒有分區添加到我的三角洲表。我不知道提partitionColumn參數。還有其他場景我們可以期待無效批失敗
@Ayesha Rahmatali:
你提供的錯誤信息表明有一個斷言失敗由於無效的批處理數據自動裝卸機中實現。錯誤具體表明模式傳入的數據不匹配預期的模式。
下麵是一些可能的原因會導致這個問題及其相應的解決方案:
我希望這些建議可以幫助你識別和解決這個問題。