取消
顯示的結果
而不是尋找
你的意思是:

火花數據限製

BorislavBlagoev
重視貢獻三世

多少數據太多火花和分區2 gb的數據最好的策略是什麼?

8回答說8

太棒了!

@Hubert杜德克你能告訴我如何計算我需要多少核心數據和多少輸入分區,我需要打亂分區、分區和輸出。在大多數情況下,我使用500 mb之間數據和10 gb。

Hubert_Dudek1
尊敬的貢獻者三世

在這種情況下最好是設置默認火花設置。關於集群大小設置自動定量。500 mb和10 gb不是那麼大,所以添加更多的cpu可以加速過程但如果速度不是問題(例如晚上etl現場實例)我將堅持機4個cpu。當工人們將數據寫到磁盤分區可以選擇機器與SSD存儲設備,因為它通常是瓶頸。

謝謝你!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map