我寫大dataframes s3 bucket的增量。
df.write \
.format \(“δ”)
.mode \(“追加”)
.partitionBy partitionColumns \
.option (“mergeSchema”,“真正的”)\
.save (target_path)
什麼是最好的建議來提高性能的編寫需要今天幾分鍾寫完s3。
使用最新版本的集群和火花3.4.0,python。
@Pablo (Ariel):
有幾種方法可以提高寫作的性能數據,S3使用火花。這裏有一些提示和建議:
關於你提到的具體配置參數:
總體來說,建議嚐試不同的配置參數和設置為你找到最好的組合特定的用例。