取消
顯示的結果
而不是尋找
你的意思是:

找到工作負載動態和自旋向上的可能性基於工作負載集群

Arunsundar
新的貢獻者三世

嗨,團隊,

早上好。

我想知道如果有可能確定工作負載自動通過代碼(數據從文件加載到表,確定文件的大小,類型的基準,我們可以檢查),在此基礎上我們可以自旋向上需要優化集群類型控製最小/最大有效完成工作負載所需的工人數量。

我也想了解集群的決心可以做隻有基於運行工作負載試錯的方法通過將各種類型的集群開發環境和集群到達最優,我們附加更高的環境中。

請讓我知道如果你有任何進一步的問題。

謝謝

5回複5

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨,沒有得到你的問題,請詳細說明。你想要通過代碼部署工作負載?

請標記@Debayan你的下一個反應,將通知我,謝謝!

Arunsundar
新的貢獻者三世

是的@Debayan穆克吉,工作量也需要通過必要的代碼和自旋向上/優化基於工作負載集群

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨,以及如何通過代碼將運行工作負載?會有任何資源參與還是怎麼?

pvignesh92
尊敬的貢獻者

嗨@Arunsundar Muthumanickam,

當你說工作量,我相信你會處理各種卷之間的數據開發和刺激的環境。如果您使用的是磚集群並沒有太多的想法如何卷可能在不同的環境中,使集群自動定量min和max工人將是一個理想的選擇,更多的工人可能會添加取決於您的工作負載(分區)的數量。

如果你的工作量有洗牌階段即連接、groupby等請檢查如果可以調整這個數字也可以設置為自動,火花優化器可以改變他們根據你的分區大小。

下麵是一些示例代碼,你可以在您的分區的分布數據。

從pyspark.sql。功能導入spark_partition_id、asc desc df \ .withColumn (“partitionId spark_partition_id ()) \ .groupBy (partitionId) \ .count () \ .orderBy (asc(“計數”))\,告訴()

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map