取消
顯示的結果
而不是尋找
你的意思是:

無法讀取XML文件9 GB

wyzer
因素二世

你好,

我們有一個大型的XML文件(9 GB),我們不能閱讀。

我們有這個錯誤:VM大小限製

但是我們如何改變VM大小限製嗎?

我們已經測試了很多集群,但沒有人能讀這個文件。

謝謝你的幫助。

9回複9

嗨@Salah k -我很抱歉混亂。我的意思是說使用更大的集群和驗證。就像下麵。

Standard_M8ms 3

個vCPU = 8

記憶:鑲條= 218

https://docs.microsoft.com/en-us/azure/virtual-machines/m-series

我不熟悉Azure。我也在AWS xml解析工作區。但是我加載的文件沒有這個巨大的。

val df =火花。

read.format (“com.databricks.spark.xml”)

.option (“rowTag”、“< MyRowTag >”)

.option (“rootTag”、“< MyRoootTag >”)

.load (“< XML文件路徑>”)

關閉以下選項,如果它是真實的。

.option (“inferschema”,“假”)

Kaniz
社區經理
社區經理

嗨@Salah k,你願意嚐試@Rama克裏希納N ' s建議嗎?

wyzer
因素二世

你好,

是的,我想試試,但我不知道如何改變內存線程在集群中。

Atanu
尊敬的貢獻者
尊敬的貢獻者

你好@Salah配置spark.executor k .你可以試試。內存從集群火花配置。

total_executor_memory = (total_ram_per_node 1) / executor_per_node

total_executor_memory =(64 - 1) / 3 = 21(四舍五入)

spark.executor。內存= total_executor_memory * 0.9

spark.executor。內存= 21 * 0.9 = 18(四舍五入)

memory_overhead = 21 * 0.1 = 3(圓形)

jose_gonzalez
主持人
主持人

嗨@Salah K。,

隻是一個友好的後續。做任何反應幫助你解決你的問題嗎?如果是,請其標記為最好。否則,請讓我們知道如果你還需要幫助。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map