我跑步2.2.0火花。目前我麵臨一個問題起源於墨西哥,導入數據時,角色可以有特殊字符,對於某些列多行。
理想情況下,這是我想要運行的命令:
T_new_exp =火花。讀\ .option(“字符集”、“iso - 8859 - 1”) \ .option (“parserLib”、“univocity”) \ .option(“多行”,“真正的”). schema(模式)\ \ . csv(文件)
然而,使用上麵給我正確排列行但沒有正確的字符集。而不是顯示e急性例如,我得到替換字符(U + FFFD)。隻有當我刪除多行選項得到正確的字符集(但沒有多行問題被解決)。
唯一的解決辦法,我必須解決這個問題現在是預處理數據分別加載之前磚;——修複多行第一次在unix中,讓磚處理unicode的問題。
有比這更簡單的方法嗎?