負載與Spark-XML特殊字符

特殊字符不正確呈現。用Spark-XML字符集。

寫的annapurna.hiriyur

去年發表在:2022年5月19日

問題

你有在你的源文件中特殊字符和使用OSS庫Spark-XML

特殊字符不正確呈現。

例如,“CLU®”呈現“CLU�”。

導致

Spark-XML默認支持utf - 8字符集。你是在XML文件中使用不同的字符集。

解決方案

你必須指定字符集使用XML文件中讀取數據。

使用字符集選項來定義字符集與Spark-XML讀取XML文件時。

例如,如果您的源文件使用iso - 8859 - 1:

% python dfResult = spark.read.format (“xml”) . schema (customSchema) \ .options (rowTag =“實體”)\ .options (charset =“iso - 8859 - 1”) \ .load (' / < path-to-xml > / <示例文件> . xml”)

檢查Spark-XML自述文件有關支持選項的更多信息。