10-03-202209:54我
我們閱讀520 gb的分區從CSV文件,當我們寫在一個CSV使用重新分配(1)它是25 +小時。請讓我們知道一個優化的方法來創建一個CSV文件,這樣我們的流程可以在5小時內完成。
10-03-2022下午01:01
如果你重新分配(1),隻有一個你的整個集群的核心工作。請重新分配核心數量(SparkContext.DefaultParallelism)。
寫作後,你會得到一個文件/核心,所以請如果你想使用其他軟件來合並文件隻有一個(ADF一些優秀的選項,在複製)。
10-05-2022下午的專機
謝謝你的時間和支持,還有其他有效方法結合部分CSV文件到一個CSV文件在磚嗎?
10-14-202204:32我
方法在磚是您正在使用的和緩慢(重新分區(1))。
10-28-202203:57點
您可以使用合並(1)例如:
df.coalesce (1) .write.option(“標題”、“true”) . csv (“path_to_save_your_CSV”)
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。