再保險:無法讀取XML文件9 GB 2 -磚- 23078頁

wyzer · ‎04-12-2022

你好,

我們有一個大型的XML文件(9 GB),我們不能閱讀。

我們有這個錯誤:VM大小限製

但是我們如何改變VM大小限製嗎?

我們已經測試了很多集群,但沒有人能讀這個文件。

謝謝你的幫助。

RKNutalapati · ‎04-13-2022

嗨@Salah k -我很抱歉混亂。我的意思是說使用更大的集群和驗證。就像下麵。

Standard_M8ms 3

個vCPU = 8

記憶:鑲條= 218

我不熟悉Azure。我也在AWS xml解析工作區。但是我加載的文件沒有這個巨大的。

val df =火花。

read.format (“com.databricks.spark.xml”)

.option (“rowTag”、“< MyRowTag >”)

.option (“rootTag”、“< MyRoootTag >”)

.load (“< XML文件路徑>”)

關閉以下選項,如果它是真實的。

.option (“inferschema”,“假”)

Kaniz · ‎04-13-2022

嗨@Salah k,你願意嚐試@Rama克裏希納N ' s建議嗎?

wyzer · ‎04-13-2022

你好,

是的,我想試試,但我不知道如何改變內存線程在集群中。

Atanu · ‎05-21-2022

你好@Salah配置spark.executor k .你可以試試。內存從集群火花配置。

total_executor_memory = (total_ram_per_node 1) / executor_per_node

total_executor_memory =(64 - 1) / 3 = 21(四舍五入)

spark.executor。內存= total_executor_memory * 0.9

spark.executor。內存= 21 * 0.9 = 18(四舍五入)

memory_overhead = 21 * 0.1 = 3(圓形)

jose_gonzalez · ‎07-25-2022

嗨@Salah K。,

隻是一個友好的後續。做任何反應幫助你解決你的問題嗎?如果是,請其標記為最好。否則,請讓我們知道如果你還需要幫助。