嗨@Salah k -我很抱歉混亂。我的意思是說使用更大的集群和驗證。就像下麵。
Standard_M8ms 3
個vCPU = 8
記憶:鑲條= 218
https://docs.microsoft.com/en-us/azure/virtual-machines/m-series
我不熟悉Azure。我也在AWS xml解析工作區。但是我加載的文件沒有這個巨大的。
val df =火花。
read.format (“com.databricks.spark.xml”)
.option (“rowTag”、“< MyRowTag >”)
.option (“rootTag”、“< MyRoootTag >”)
.load (“< XML文件路徑>”)
關閉以下選項,如果它是真實的。
.option (“inferschema”,“假”)
你好@Salah配置spark.executor k .你可以試試。內存從集群火花配置。
total_executor_memory = (total_ram_per_node 1) / executor_per_node
total_executor_memory =(64 - 1) / 3 = 21(四舍五入)
spark.executor。內存= total_executor_memory * 0.9
spark.executor。內存= 21 * 0.9 = 18(四舍五入)
memory_overhead = 21 * 0.1 = 3(圓形)