取消
顯示的結果
而不是尋找
你的意思是:

不正確的閱讀與inferSchema csv格式

Tracy_
新的貢獻者二世

你好,

有一個CSV列ID(格式:8位&”D”最後)。

當試圖讀一個csv。選項(“inferSchema”,“真正的”),它返回ID作為雙和修剪”D”。(除了有什麼想法嗎inferSchema = False)得到正確結果嗎?謝謝你的幫助!

下麵的選項是嚐試也失敗了。

選項(9月分隔符=”、“=”、“,頭= True, inferSchema = True,多行= True, " = " \ "”,逃避= " \ " ")

image.png

5回複5

ajaypanday6781
尊敬的貢獻者二世

嗨@tracy ng

默認情況下,火花治療作為一個為所有的數字以雙重價值DF

我認為你應該聯係關於這個磚。

Tracy_
新的貢獻者二世

謝謝@Ajay Pandey。

Hubert_Dudek1
尊敬的貢獻者三世

它可以解決,例如,通過指定的模式與ID字符串。

如果你不想指定模式,更好的將自動裝卸機,您可以指定提示:

火花。readStream .format .option (“cloudFiles (“cloudFiles”)。格式”、“csv”) .option (“cloudFiles。schemaLocation”, checkpoint_path) .option (“cloudFiles。schemaHints”、“ID字符串”).option (“inferSchema”,真的).option (“mergeSchema”,真的).load(文件夾)

Tracy_
新的貢獻者二世

由於@Hubert杜德克,

因為閱讀文件用於循環不同來源不同的目錄有不同的模式和動態列名稱(有時命名為ID,有時叫SID等等),自動裝卸機似乎並不適用於本案。我想知道有什麼選項來禁用這個特性(治療時雙列有落後於D)。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map