複製列元數據錯誤

火花工作與org.apache.spark.sql失敗在處理一個三角洲表。AnalysisException發現重複的列(s)的元數據錯誤。

寫的vikas.yadav

去年發表在:2022年5月23日

問題

您的Apache火花工作時處理一個三角洲表工作失敗,並顯示一條錯誤消息。

org.apache.spark.sql。AnalysisException:發現重複的列(s)的元數據更新:col1, col2……

導致

三角洲表中有重複的列名。列名隻有通過不同情況下被認為是重複的。

三角洲湖是保留,但不分大小寫,當存儲模式。

拚花是大小寫敏感的,當存儲和返回列信息。

火花可以區分大小寫,但默認情況下不敏感。

為了避免潛在的數據損壞或數據丟失,不允許重複的列名。

解決方案

三角洲表必須不包含重複的列名。

確保所有列名是獨一無二的。