取消
顯示的結果
而不是尋找
你的意思是:

如何導入數據和應用多行和字符集UTF8在同一時間嗎?

HafidzZulkifli
新的貢獻者二世

我跑步2.2.0火花。目前我麵臨一個問題起源於墨西哥,導入數據時,角色可以有特殊字符,對於某些列多行。

理想情況下,這是我想要運行的命令:

T_new_exp =火花。讀\ .option(“字符集”、“iso - 8859 - 1”) \ .option (“parserLib”、“univocity”) \ .option(“多行”,“真正的”). schema(模式)\ \ . csv(文件)

然而,使用上麵給我正確排列行但沒有正確的字符集。而不是顯示e急性例如,我得到替換字符(U + FFFD)。隻有當我刪除多行選項得到正確的字符集(但沒有多行問題被解決)。

唯一的解決辦法,我必須解決這個問題現在是預處理數據分別加載之前磚;——修複多行第一次在unix中,讓磚處理unicode的問題。

有比這更簡單的方法嗎?

8回答說8

kali_tummala
新的貢獻者二世

你累了編碼選項嗎?.option(“編碼”、“utf - 8”) . csv (inputPath)

,

你試過utf8選項嗎?

.option(“編碼”、“utf - 8”) . csv (inputPath)

kali_tummala
新的貢獻者二世

@Hafidz Zulkifli檢查我的答案

HafidzZulkifli
新的貢獻者二世

@(電子郵件保護)剛才試過。它沒有工作。有兩個部分的問題——一個是處理多行。另一種是處理不同的字符集。

sean_owen
尊敬的貢獻者二世
尊敬的貢獻者二世

你確定這是解析的問題,而不是簡單地顯示?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map