09-20-202206:24我
大家好!
我試圖運行一個磚筆記本使用ThreadPoolExecutor並行。
誰能建議如何減少花費的時間基於以下發現。
當前的性能:
時間25分鍾
ThreadPoolExecutor max_workers - 24
目前集群配置:
DBR - 9.1 LTS
最小的工人- 2
馬克斯工人- 6
核心- 4人均數量
內存- 14 GB /工人
自動伸縮功能啟用
我試著增加工人的數量到18希望它會減少花費的時間,但實際上並沒有幫助。
任何想法如何減少時間. .
09-20-202209:01我
ThreadPoolExecutor不會幫助磚/火花將處理工作的工作。
所以請分析在UI火花是什麼消費最多的時間。
有很多技巧如何優化他們依靠數據集(大小等轉換)
09-20-202233我
嗨@Hubert杜德克,
你有提到ThreadPoolExecutor不會幫助,所以如果我想要運行一個相同的磚筆記本的100個不同的輸入值和運行序列需要更多的時間來完成。
那麼如何實現這個場景呢?
09-21-202237點
編排為一個工作負載的一切,每一個筆記本運行會有不同的參數(類似下麵的圖片)。您可以創建一個* * * * *任務時,所有依賴於它,這樣他們將使用同一台機器(另一個設定,你使用的服務器和每個任務使用不同的機器也是可能的)。
如果你真的想要一個1萬的筆記本1並行集群,您可以設置一個獨特的工作池執行每一個筆記本所以他們會保留資源(池需要不同)的名稱。
sc.setLocalProperty (“spark.scheduler。池”、“somename”)
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。