取消
顯示的結果
而不是尋找
你的意思是:

我怎麼阻止_success和_committed文件在我寫輸出?

PradeepRavi
新的貢獻者三世

有辦法防止_success和_committed文件輸出。這是一個乏味的任務導航到所有分區和刪除文件。

注:最終輸出存儲在Azure ADLS

6個回答6

AndrewSears
新的貢獻者三世

這是我推薦StackOverflow雖然還沒有與ADLS測試。

sc._jsc.hadoopConfiguration()這裏(“mapreduce.fileoutputcommitter。marksuccessfuljobs”、“假”)

注意它可能影響整個集群。

你也可以使用dbutils.fs。刪除任何rm一步創建的文件。

歡呼,

安德魯

PradeepRavi
新的貢獻者三世

這個解決方案是在本地intellij設置工作但不是磚筆記本的設置。

AndrewSears
新的貢獻者三世

你嚐試用一個新的磚集群使用初始化腳本?

https://docs.www.eheci.com/user-guide/clusters/init-scripts.html

DD_Sharma
新的貢獻者三世

下麵三個屬性的組合將有助於禁用寫所有的事務性文件從“_”開始。

  1. 我們可以禁用事務日誌的火花鋪寫使用“spark.sql.sources.commitProtocolClass = org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol”。這將有助於禁用”承諾< TID >”和“開始但仍然_SUCCESS < TID >”文件,_common_metadata和_metadata文件將生成。
  2. 我們可以禁用_common_metadata和_metadata文件使用“parquet.enable.summary-metadata = false”。
  3. 我們也可以禁用_SUCCESS文件使用“mapreduce.fileoutputcommitter.marksuccessfuljobs = false”。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map