01-28-202204:02我
多少數據太多火花和分區2 gb的數據最好的策略是什麼?
01-28-2022上午08:28
太棒了!
01-28-2022上午11:04
@Hubert杜德克你能告訴我如何計算我需要多少核心數據和多少輸入分區,我需要打亂分區、分區和輸出。在大多數情況下,我使用500 mb之間數據和10 gb。
02-01-202202:19我
在這種情況下最好是設置默認火花設置。關於集群大小設置自動定量。500 mb和10 gb不是那麼大,所以添加更多的cpu可以加速過程但如果速度不是問題(例如晚上etl現場實例)我將堅持機4個cpu。當工人們將數據寫到磁盤分區可以選擇機器與SSD存儲設備,因為它通常是瓶頸。
02-01-202202:55我
謝謝你!
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。