用單一的CSV文件-磚- 29551

Mohit_Kumar_Sut · ‎10-03-2022

我們閱讀520 gb的分區從CSV文件,當我們寫在一個CSV使用重新分配(1)它是25 +小時。請讓我們知道一個優化的方法來創建一個CSV文件,這樣我們的流程可以在5小時內完成。

Hubert_Dudek1 · ‎10-03-2022

如果你重新分配(1),隻有一個你的整個集群的核心工作。請重新分配核心數量(SparkContext.DefaultParallelism)。

寫作後,你會得到一個文件/核心,所以請如果你想使用其他軟件來合並文件隻有一個(ADF一些優秀的選項,在複製)。

Mohit_Kumar_Sut · ‎10-05-2022

謝謝你的時間和支持,還有其他有效方法結合部分CSV文件到一個CSV文件在磚嗎?

Hubert_Dudek1 · ‎10-14-2022

方法在磚是您正在使用的和緩慢(重新分區(1))。

jose_gonzalez · ‎10-28-2022

您可以使用合並(1)例如:

df.coalesce (1) .write.option(“標題”、“true”) . csv (“path_to_save_your_CSV”)