取消
顯示的結果
而不是尋找
你的意思是:

如何閱讀華禾投資從s3和不同列目錄嗎

547284年
新的貢獻者二世

我可以閱讀所有華禾投資下一個S3 uri楊百翰大學做的事情:

文件= dbutils.fs.ls (s3: / / example-path)

df = spark.read.options(頭=‘真正的’,

編碼=“iso - 8859 - 1”,

dateFormat = '名稱',

ignoreLeadingWhiteSpace = '真的',

ignoreTrailingWhiteSpace = \“真正的”)

. csv(文件名)

然而,這些列的csv都是不同的。

例如File1已列A, B, C;file2列C, D, E;file3列B, F .我想讀所有這些文件結果dataframe列一個,B, C, D, E, F,所有列被正確讀取。

我可以遍曆每個文件,分別讀它,然後結合創造一個更大的dataframe,但有更好的方法嗎?

1回複1

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨@Anthony王到目前為止,我認為這是唯一的方法。請參考:https://docs.www.eheci.com/external-data/csv.html pitfalls-of-reading-a-subset-of-columns。請讓我們知道這有幫助。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map