自動裝卸機問題——java.lang.AssertionError- Databricks - 5738

ayesharahmat · ‎04-16-2023

我遇到以下錯誤。我用microbatch自動裝卸機。請幫助糾正這個問題

. lang。AssertionError:斷言失敗:無效的批處理:# 36188,modificationTime # 36189, # 36190 l長度,內容# 36191,提供者# 36192,# 36193,位置請求# 36194,# 36195,# 36196,# 36197,# 36198,# 36199,# 36200第二! # 40036 =路徑,modificationTime # 40037, # 40038 l長度,內容# 40039

Priyanka_Biswas · ‎04-17-2023

你好@Ayesha Rahmatali請您讓我知道您正在使用的DBR版本?

就可能發生以下錯誤如果新的分區列被推斷從你的文件導致這個問題。

如果是這種情況,為了解決這個問題,請提供所有分區列在你的模式或提供分區列的列表,你想提取值通過使用:.option (“cloudFiles。partitionColumns”、“< comma-separated-list |空字符串>”。自動裝卸機推斷分區列是空的。使用cloudFiles。partitionColumns的顯式解析列目錄結構。

輸入的更多信息,請參考下麵的文檔。

參考:https://docs.www.eheci.com/spark/latest/structured-streaming/auto-loader-schema.html

ayesharahmat · ‎04-17-2023

你好卡

謝謝你的回複。沒有分區添加到我的三角洲表。我不知道提partitionColumn參數。還有其他場景我們可以期待無效批失敗

匿名 · ‎04-18-2023

@Ayesha Rahmatali:

你提供的錯誤信息表明有一個斷言失敗由於無效的批處理數據自動裝卸機中實現。錯誤具體表明模式傳入的數據不匹配預期的模式。

下麵是一些可能的原因會導致這個問題及其相應的解決方案:

模式不匹配:方案中數據的批處理可能不同於自動裝卸機的模式定義。請確保數據的模式在批處理模式為自動裝卸機定義匹配。
損壞數據:批處理中的數據可能損壞或有一些缺失值。請檢查是否有任何null或空值的數據。
內存問題:有可能批大小太大的係統來處理。請試著減少批量大小,看看是否存在問題。
網絡延遲:可能有網絡延遲問題導致數據到達一個意想不到的格式。請確保穩定可靠的網絡連接。
代碼的問題:可能有一個問題與您編寫的代碼。請檢查代碼並檢查是否有邏輯錯誤,可能會導致問題。

我希望這些建議可以幫助你識別和解決這個問題。

磚

自動裝卸機問題——java.lang.AssertionError