val火花:SparkSession = SparkSession.builder ()
部分(“地方[3]”)
.appName (“SparkByExamples.com”)
.getOrCreate ()
/ /火花讀CSV文件
val df = spark.read.option(“標題”,真的). csv (“address.csv”)
/ /寫DataFrame地址目錄
df.write.csv(“地址”)
上麵寫聲明寫3 CSV文件和.CRC _SUCCESS文件。
有什麼選項火花不寫這些文件嗎?我發現了一篇文章,解釋了如何編寫後刪除這些文件https://sparkbyexamples.com/spark/spark-write-dataframe-single-csv-file/但是我不能使用這個有幾個原因。
希望問題是明確的和期待一些答案。
升值。
spark.conf.set (“spark.sql.sources.commitProtocolClass”、“org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol”)
spark.conf.set (“parquet.enable。summary-metadata”、“假”)
spark.conf.set (“mapreduce.fileoutputcommitter。marksuccessfuljobs”、“假”)
有參數避免編寫任何元數據文件。
有多個csv文件是並行處理的結果。如果你不想要,你需要添加合並(1)寫聲明。
但這將影響火花代碼的性能。
spark.conf.set (“spark.sql.sources.commitProtocolClass”、“org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol”)
spark.conf.set (“parquet.enable。summary-metadata”、“假”)
spark.conf.set (“mapreduce.fileoutputcommitter。marksuccessfuljobs”、“假”)
有參數避免編寫任何元數據文件。
有多個csv文件是並行處理的結果。如果你不想要,你需要添加合並(1)寫聲明。
但這將影響火花代碼的性能。