取消
顯示的結果
而不是尋找
你的意思是:

如何讀取文件”與“pyspark) |(分隔符

lambarc
新的貢獻者二世

數據是這樣的:

pageId】|【頁麵】|【位置】|【sysId】|【carId 0005] |(寶馬)|(南)| (AD6) | (OP4

有至少50列和數百萬行。

我嚐試使用以下代碼來讀取:

dff = sqlContext.read.format (“com.databricks.spark.csv”)。選項(“頭”,“真正的”)。選項(“inferSchema”,“真正的”)。選項(“分隔符”、“)| (”).load (trainingdata +“- 00000一部分”)

它給了我以下錯誤:

IllegalArgumentException: u 'Delimiter不能超過一個字符:]| ['

7回複7

rohit199912
新的貢獻者二世

你也可以試著吹的選擇。

1)。使用一個不同的文件格式:你可以試著使用不同的文件格式,支持多字分隔符,例如文本JSON。

2)。使用一個自定義行類:你可以寫一個自定義行類解析多字分隔符,然後使用spark.read。文本API來讀取文件為文本。然後,您將需要使用自定義行類文本文件中的每一行提取的值

這個作品。謝謝。

Manoj12421
重視貢獻二世

是的這個是有用的但如果我們需要使用CSV格式隻比其他任何查詢,如果有你可以分享。@ROHIT阿加瓦爾

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map