如何閱讀從s3華禾投資目錄均…-磚- 21899

547284年 · ‎11-17-2022

我可以閱讀所有華禾投資下一個S3 uri楊百翰大學做的事情:

文件= dbutils.fs.ls (s3: / / example-path)

df = spark.read.options(頭=‘真正的’,

編碼=“iso - 8859 - 1”,

dateFormat = '名稱',

ignoreLeadingWhiteSpace = '真的',

ignoreTrailingWhiteSpace = \“真正的”)

. csv(文件名)

然而,這些列的csv都是不同的。

例如File1已列A, B, C;file2列C, D, E;file3列B, F .我想讀所有這些文件結果dataframe列一個,B, C, D, E, F,所有列被正確讀取。

我可以遍曆每個文件,分別讀它,然後結合創造一個更大的dataframe,但有更好的方法嗎?

Debayan · ‎11-17-2022

嗨@Anthony王到目前為止,我認為這是唯一的方法。請參考:https://docs.www.eheci.com/external-data/csv.html pitfalls-of-reading-a-subset-of-columns。請讓我們知道這有幫助。

磚