取消
顯示的結果
而不是尋找
你的意思是:

處理細胞內逗號CSV

AnandJ_Kadhi”id=
新的貢獻者二世

我們使用的是1.5.0 spark-csv_2.10 >版本

和閱讀csv文件列包含逗號","的性格。我們麵臨的問題是這樣對待其他線上逗號後的新列和數據不正確解釋,由於。

你能提出任何解決方案在相同嗎?

2回答2

osamakhn”id=
新的貢獻者二世

我一直在解決這個熊貓中介功能但是火花的解決方案會有幫助!我願意貢獻如果任何人都可以告訴我正確的方向

User16857282152”id=
貢獻者

看一看這裏的選項,

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=dataframereader pyspark.sq……

如果一個csv文件有逗號的傳統是引用字符串包含逗號,

特別是看看添加的一些選項,文檔等。

報價——設置一個字符用於轉義引用值的分隔符可以是值。如果沒有設置,它使用默認值,

。如果你想關閉報價,您需要設置一個空字符串。

同時,

你可能不格式化的數據,在這種情況下,你可能需要閱讀整個線作為一個字符串,然後解析dataframe單柱和使用工具來將字符串來創建所需的最終dataframe

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map