取消
顯示的結果
而不是尋找
你的意思是:

我有工作和異步運行多個任務,我不認為它利用基於運行時的所有節點在集群上。

dave_hiltbrand
新的貢獻者二世

我有工作和異步運行多個任務,我不認為它利用基於運行時的所有節點在集群上。我打開火花UI的集群和結帳的執行人,看不到任何任務工作節點。如何監控集群,以確保我的任務並行運行,利用多個節點集群?

3回複3

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨,你能請查看指標在節點級別,看看那你期待什麼?

https://docs.www.eheci.com/compute/cluster-metrics.html view-metrics-at-the-node-level

請與你的下一個更新標簽@Debayan穆克吉,這樣我將得到通知。

dave_hiltbrand
新的貢獻者二世

嗨Debayan,我確實注意到每個工人完成任務節點的數量是不同的,當我看著火花UI - >執行人頁麵。所以它似乎整個集群使用但我不能告訴如果司機節點發送任務並行工人或按順序分配。我的工作流程是這樣的:截圖2023-06-23 072337之前我跑一個筆記本和m #筆記本在一個循環中執行:

在MODEL_NUMBERS model_number: global_parameters [' model_number '] = model_number打印(f“建設{model_number}火車/測試數據…”)train_test_data = dbutils.notebook.run (global_parameters build_train_test, 60 * 60) train_test_data = json.loads (train_test_data)如果(file_exists (train_test_data [' TRAIN_DATA '])和file_exists (train_test_data [' TEST_DATA '])): f”{model_number}培訓/測試數據完成。”打印(f”培訓模式{model_number}…”) trained_model = dbutils.notebook.run(“訓練”,0,global_parameters)如果file_exists (trained_model): evaluation_metrics = dbutils.notebook.run(“評價”,60 * 60,global_parameters)指標的evaluation_metrics.split(" "):如果file_exists(指標):繼續其他:提高FileNotFoundError(“評估度量了”+度量):提高FileNotFoundError(“培訓模型沒有找到:”+ trained_model):提高FileNotFoundError(“訓練和測試數據沒有找到:”+ train_test_data)打印(f“建設final_model {model_number}火車/測試數據…”)如果ENV[‘測試’,‘刺激’]:dbutils.notebook.run (“final_models”, 0, global_parameters)

連續循環工作運行在28分鍾的異步/並行作業運行在50分鍾。

Vidula_Khanna
主持人
主持人

嗨@Dave Hiltbrand

很高興認識你,謝謝你的問題!

看看你的同行在社區中有一個回答你的問題。謝謝。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map