你好,
我麵臨的GC元數據問題在執行分布式計算火花。
2022 - 01 - 13 t22:02:28.467 + 0000: [GC GC閾值(元數據)[PSYoungGen: 458969 k - > 18934 k (594944 k)] 458969 k - > 458969 k (1954816 k), 0.0144028秒][:用戶= 0.05 sys = 0.01,真實= 0.02秒)
2022 - 01 - 13 t22:02:28.482 + 0000:[完整GC GC閾值(元數據)[PSYoungGen: 18934 k - > 0 k (594944 k)] [ParOldGen: 24 k - > 17853 k (823296 k)] 18958 k - > 18958 k (1418240 k), [Metaspace: 20891 k - > 20891 k (1067008 k)], 0.0201195秒][:用戶= 0.14 sys = 0.01,真實= 0.02秒)
2022 - 01 - 13 t22:02:29.459 + 0000: [GC GC閾值(元數據)[PSYoungGen: 432690 k - > 84984 k (594944 k)] 450544 k - > 450544 k (1418240 k), 0.0226140秒][:用戶= 0.17 sys = 0.05,真實= 0.03秒)
2022 - 01 - 13 t22:02:29.481 + 0000:[完整GC GC閾值(元數據)[PSYoungGen: 84984 k - > 0 k (594944 k)] [ParOldGen: 20025 k - > 91630 k (1360384 k)] 105009 k - > 105009 k (1955328 k), [Metaspace: 34943 k - > 34943 k (1079296 k)], 0.0307833秒][:用戶= 0.13 sys = 0.07,真實= 0.03秒)
集群配置:
節點- r5.4xlarge (128 GB, 16芯)
8個工作節點
火花配置:
spark_home_set(“/磚/火花”)
配置< - spark_config ()
配置spark.sql.shuffle美元。分區= 480
配置spark.executor美元。核= 5
配置spark.executor美元。內存= " 30克"
配置spark.rpc.message美元。最大尺寸= 1945
配置spark.executor美元。實例= 24
配置spark.driver美元。內存= " 30克"
配置spark.sql.execution.arrow.sparkr美元。啟用= TRUE
配置spark.driver美元。maxResultSize = 0
選項(sparklyr.sanitize.column.names.verbose = TRUE)
選項(sparklyr。verbose = TRUE)
選項(sparklyr.na.omit。verbose = TRUE)
選項(sparklyr.na.action。verbose = TRUE)
選項(java。參數= " -Xmx8000m”)
sc < - spark_connect(方法=“磚”,主=“yarn-client”,配置=配置,spark_home = /磚/火花)
請讓我知道如何解決這個問題。嚐試不同的方法但是我得到同樣的錯誤。
謝謝,
的孩子叫
嗨@Jose岡薩雷斯,
是的,下麵的火花配置問題得到了解決。
參看= spark_config ()
conf sparklyr.apply美元。包< -假
sc < - spark_connect(方法=“磚”,配置=會議)
嗨@Chandan Angadi,
GC的日誌消息告訴所致Metaspace分配失敗。Metaspaces類的元數據。
請通過博客上麵提到的問題:-
//www.eheci.com/blog/2015/05/28/tuning-java-garbage-collection-for-spark-applications.html
嗨@Hubert杜德克,
謝謝你的回複,我運行R代碼。我試過這個方法你提到有同樣的問題。