運行超過nr-of-cores並發任務。頁2 -磚- 15188

埃裏克 · ‎09-20-2021

我們起程拓殖磚provier的使用,這是開始一個集群和檢查每一個山(由於沒有安裝rest API)。檢查每個掛載花20秒,99.9%的時間是空閑等待,開始一份工作/掛載。如果我們可以運行很多(超過nr的核心)工作同時我們應該能夠使它更快,但我不能找到如何做到這一點。我試過設置

“spark.executor。在stances` to 2*cores, but it seems to be ignored.

所以,是否可以設置磚使用比nr火花執行人的核心?

埃裏克 · ‎10-09-2021

嗨@Jose岡薩雷斯,謝謝你的建議。但這鏈接問如何*限製*執行人的nr,所以每個被更多的內存。我想做相反的事情,我更希望* *執行人/核心(或使每個執行者執行許多並行的任務)。默認值為“spark.task。cpu '是' 1 ',它似乎並沒有接受一個值0.1,然後拒絕啟動。

我設置了集群級別設置在“高級選項”下,下麵我附上spark.task我試著編輯的一個屏幕快照。cpu設置:

埃裏克 · ‎10-15-2021

@Jose岡薩雷斯@Kaniz開羅:由於沒有更多的答案我開始相信,也許是不可能讓磚使用火花執行人比nr核。你能確認這個給我嗎?

jose_gonzalez · ‎10-18-2021

嗨@Erik Parmann,

可以做,但是你也可能需要啟用動態配置集群級別能夠確保你的設置是應用在創建集群。你可以找到更多的細節在這裏。作為最佳實踐,我們不建議改變這個配置,因為它可能會產生其他問題。我們建議使用我們提供的默認選項。

埃裏克 · ‎10-20-2021

謝謝你的回複!我理解,在總體默認選項是好的,但是在這個usecase(很多小操作每個IO綁定99.99999%)真的很不理想,這真的使databricks-with-IAC經驗有點麻煩。

我試著用以下設置“火花配置”部分:

spark.dynamicAllocation。真正的spark.dynamicAllocation.shuffleTracking啟用。真正的spark.shuffle.service啟用。真正的spark.dynamicAllocation啟用。在itialExecutors 8 spark.dynamicAllocation.minExecutors 8 spark.scheduler.mode FIFO

但在基於機器我還是隻能得到1執行人(見“火花集群UI”選項卡)4個任務的並行執行。我試著與集群“高並發性”和“標準”。你可以得到許多spark.dynamicAllocation執行人通過改變運行”。啟用”和“spark.dynamicAllocation。minExecutors”?