解決:PySpark:拚花文件寫入到Azure Blob年代……-磚- 16843

Eyespoop · ‎06-23-2022

現在我有一些問題與拚花的寫文件的存儲容器。我有但每次運行的代碼dataframe作家把鋪blob存儲而不是拚花的文件類型,它創建一個文件夾類型與許多文件內容。

一個音符,我試著在網上搜索各種方式,似乎這是默認創建使用pyspark時我可以看到創建的文件夾中有一個文件拚花與時髦的添加進去(參見下麵的截圖)

如果這是一個默認創建pyspark代碼,我如何寫一個拚花格式,會做一些分裂或創建文件夾嗎?你有什麼推薦嗎?如何做的?

匿名 · ‎06-24-2022

當你寫一個文件,它使用默認壓縮如果你不指定它。默認的壓縮是時髦的,預期+期望的行為。

拚花是可剝離。它還需要創建其他文件,首先強調,確保你不要寫部分或破裂。

你到底是想做什麼?

匿名 · ‎06-24-2022

當你寫一個文件,它使用默認壓縮如果你不指定它。默認的壓縮是時髦的,預期+期望的行為。

拚花是可剝離。它還需要創建其他文件,首先強調,確保你不要寫部分或破裂。

你到底是想做什麼?

Eyespoop · ‎06-27-2022

已經發現這已經是行為,因此使它工作,目前所有的爭執,文件夾被刪除和爭執,文件夾內的文件拚花內容已經被移到外麵文件夾重命名它。解我看到我的目標文件轉儲一個鋪在容器沒有爭執,文件夾。

謝謝@Joseph Kambourakis

User16764241763 · ‎06-27-2022

你好@Karl Saycon

你可以嚐試設置此配置防止額外的鑲花的總結和元數據文件寫入?結果從dataframe寫入存儲應該是一個文件。

下麵三個屬性的組合將有助於禁用寫所有的事務性文件從“_”開始。

我們可以禁用事務日誌的火花鋪寫使用“spark.sql.sources.commitProtocolClass = org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol”。這將有助於禁用”承諾< TID >”和“開始但仍然_SUCCESS < TID >”文件,_common_metadata和_metadata文件將生成。
我們可以禁用_common_metadata和_metadata文件使用“parquet.enable.summary-metadata = false”。
我們也可以禁用_SUCCESS文件使用“mapreduce.fileoutputcommitter.marksuccessfuljobs = false”。

磚