是的@Debayan穆克吉,工作量也需要通過必要的代碼和自旋向上/優化基於工作負載集群
嗨@Arunsundar Muthumanickam,
當你說工作量,我相信你會處理各種卷之間的數據開發和刺激的環境。如果您使用的是磚集群並沒有太多的想法如何卷可能在不同的環境中,使集群自動定量min和max工人將是一個理想的選擇,更多的工人可能會添加取決於您的工作負載(分區)的數量。
如果你的工作量有洗牌階段即連接、groupby等請檢查如果可以調整這個數字也可以設置為自動,火花優化器可以改變他們根據你的分區大小。
下麵是一些示例代碼,你可以在您的分區的分布數據。
從pyspark.sql。功能導入spark_partition_id、asc desc df \ .withColumn (“partitionId spark_partition_id ()) \ .groupBy (partitionId) \ .count () \ .orderBy (asc(“計數”))\,告訴()