找到工作的可能性dynamicall……-磚- 7847

Arunsundar · ‎03-12-2023

嗨,團隊,

早上好。

我想知道如果有可能確定工作負載自動通過代碼(數據從文件加載到表,確定文件的大小,類型的基準,我們可以檢查),在此基礎上我們可以自旋向上需要優化集群類型控製最小/最大有效完成工作負載所需的工人數量。

我也想了解集群的決心可以做隻有基於運行工作負載試錯的方法通過將各種類型的集群開發環境和集群到達最優,我們附加更高的環境中。

請讓我知道如果你有任何進一步的問題。

謝謝

Debayan · ‎03-12-2023

嗨,沒有得到你的問題,請詳細說明。你想要通過代碼部署工作負載?

請標記@Debayan你的下一個反應,將通知我,謝謝!

Arunsundar · ‎03-12-2023

是的@Debayan穆克吉,工作量也需要通過必要的代碼和自旋向上/優化基於工作負載集群

Debayan · ‎03-15-2023

嗨,以及如何通過代碼將運行工作負載?會有任何資源參與還是怎麼?

pvignesh92 · ‎03-13-2023

嗨@Arunsundar Muthumanickam,

當你說工作量,我相信你會處理各種卷之間的數據開發和刺激的環境。如果您使用的是磚集群並沒有太多的想法如何卷可能在不同的環境中,使集群自動定量min和max工人將是一個理想的選擇,更多的工人可能會添加取決於您的工作負載(分區)的數量。

如果你的工作量有洗牌階段即連接、groupby等請檢查如果可以調整這個數字也可以設置為自動,火花優化器可以改變他們根據你的分區大小。

下麵是一些示例代碼,你可以在您的分區的分布數據。

從pyspark.sql。功能導入spark_partition_id、asc desc df \ .withColumn (“partitionId spark_partition_id ()) \ .groupBy (partitionId) \ .count () \ .orderBy (asc(“計數”))\,告訴()

磚

找到工作負載動態和自旋向上的可能性基於工作負載集群