取消
顯示的結果
而不是尋找
你的意思是:

如何編寫一個火花DataFrame在Azure磚與.CRC CSV文件?

prapot
新的因素

val火花:SparkSession = SparkSession.builder ()

部分(“地方[3]”)

.appName (“SparkByExamples.com”)

.getOrCreate ()

/ /火花讀CSV文件

val df = spark.read.option(“標題”,真的). csv (“address.csv”)

/ /寫DataFrame地址目錄

df.write.csv(“地址”)

上麵寫聲明寫3 CSV文件和.CRC _SUCCESS文件。

有什麼選項火花不寫這些文件嗎?我發現了一篇文章,解釋了如何編寫後刪除這些文件https://sparkbyexamples.com/spark/spark-write-dataframe-single-csv-file/但是我不能使用這個有幾個原因。

希望問題是明確的和期待一些答案。

升值。

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

spark.conf.set (“spark.sql.sources.commitProtocolClass”、“org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol”)

spark.conf.set (“parquet.enable。summary-metadata”、“假”)

spark.conf.set (“mapreduce.fileoutputcommitter。marksuccessfuljobs”、“假”)

有參數避免編寫任何元數據文件。

有多個csv文件是並行處理的結果。如果你不想要,你需要添加合並(1)寫聲明。

但這將影響火花代碼的性能。

在原帖子查看解決方案

1回複1

werners1
尊敬的貢獻者三世

spark.conf.set (“spark.sql.sources.commitProtocolClass”、“org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol”)

spark.conf.set (“parquet.enable。summary-metadata”、“假”)

spark.conf.set (“mapreduce.fileoutputcommitter。marksuccessfuljobs”、“假”)

有參數避免編寫任何元數據文件。

有多個csv文件是並行處理的結果。如果你不想要,你需要添加合並(1)寫聲明。

但這將影響火花代碼的性能。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map