取消
顯示的結果
而不是尋找
你的意思是:

PySpark:拚花文件寫入到Azure Blob存儲容器

Eyespoop
新的貢獻者二世

現在我有一些問題與拚花的寫文件的存儲容器。我有但每次運行的代碼dataframe作家把鋪blob存儲而不是拚花的文件類型,它創建一個文件夾類型與許多文件內容。

一個音符,我試著在網上搜索各種方式,似乎這是默認創建使用pyspark時我可以看到創建的文件夾中有一個文件拚花與時髦的添加進去(參見下麵的截圖)

圖像圖片(1)圖像(2)如果這是一個默認創建pyspark代碼,我如何寫一個拚花格式,會做一些分裂或創建文件夾嗎?你有什麼推薦嗎?如何做的?

1接受解決方案

接受的解決方案

匿名
不適用

當你寫一個文件,它使用默認壓縮如果你不指定它。默認的壓縮是時髦的,預期+期望的行為。

拚花是可剝離。它還需要創建其他文件,首先強調,確保你不要寫部分或破裂。

你到底是想做什麼?

在原帖子查看解決方案

3回複3

匿名
不適用

當你寫一個文件,它使用默認壓縮如果你不指定它。默認的壓縮是時髦的,預期+期望的行為。

拚花是可剝離。它還需要創建其他文件,首先強調,確保你不要寫部分或破裂。

你到底是想做什麼?

Eyespoop
新的貢獻者二世

已經發現這已經是行為,因此使它工作,目前所有的爭執,文件夾被刪除和爭執,文件夾內的文件拚花內容已經被移到外麵文件夾重命名它。解我看到我的目標文件轉儲一個鋪在容器沒有爭執,文件夾。

謝謝@Joseph Kambourakis

圖像

User16764241763
尊敬的貢獻者

你好@Karl Saycon

你可以嚐試設置此配置防止額外的鑲花的總結和元數據文件寫入?結果從dataframe寫入存儲應該是一個文件。

https://community.www.eheci.com/s/question/0D53f00001HKHiNCAX/how-do-i-prevent-success-and-committe..。

下麵三個屬性的組合將有助於禁用寫所有的事務性文件從“_”開始。

  1. 我們可以禁用事務日誌的火花鋪寫使用“spark.sql.sources.commitProtocolClass = org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol”。這將有助於禁用”承諾< TID >”和“開始但仍然_SUCCESS < TID >”文件,_common_metadata和_metadata文件將生成。
  2. 我們可以禁用_common_metadata和_metadata文件使用“parquet.enable.summary-metadata = false”。
  3. 我們也可以禁用_SUCCESS文件使用“mapreduce.fileoutputcommitter.marksuccessfuljobs = false”。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map