取消
顯示的結果
而不是尋找
你的意思是:

為什麼不使用所有可用內核的遺囑執行人抽樣?

Matt101122
貢獻者

我白天提取數據從一個自定義格式的月使用32核心執行人。我使用抽樣發放工作執行人的核心。我看到一個間歇性的問題,有時候我跑步看到31芯被用作預期,其他時候我看到它用2芯一次(30核心並不做任何事情)…這導致筆記本采取過度的時間才能完成。如果我取消工作並重新運行它通常使用所有的核心。任何想法嗎?

簡化版本的代碼是這樣的:

days_rdd = sc.parallelize cmd_results = days_rdd (days_to_process)。地圖(λ:do_some_work (start_date,年、月、日)).collect cmd_results (r):打印(右)

視圖SparkUI隻有2芯被使用(預計31芯使用;1每天:

圖像

工作時所使用的視圖正確顯示31芯:

圖像

1接受解決方案

接受的解決方案

Matt101122
貢獻者

我可能算出來!

我明確地設置片,而不是使用默認的數量。

days_rdd = sc.parallelize (days_to_process len (days_to_process))

在原帖子查看解決方案

1回複1

Matt101122
貢獻者

我可能算出來!

我明確地設置片,而不是使用默認的數量。

days_rdd = sc.parallelize (days_to_process len (days_to_process))

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map