在磚上,我們用下麵的代碼來平JSON在Python中。REST API的數據:
' ' '
df = spark.read.format (json)。選項(“頭”,“真正的”)。選項(“多行”,“真正的”)。負載(SourceFileFolder + sourcetable + * . json)
df2 = df.select (psf.explode(“價值”).alias (tmp)) .select (tmp . *)
df2.write.format(“δ”).save (DeltaLakeFolder)
' ' '
我們不知道他們的模式是改變盡可能通用。然而,隨著增長高於2.8 gb的json文件,我現在看到以下錯誤:
' ' '
引起的:. lang。IllegalArgumentException:不能長BufferHolder按大小168後因為規模增長超過大小限製2147483632
' ' '
json是這樣的:
' ' '
{
“@odata。上下文”:“RANDOMSTRING)”,
“價值”:(
{
“COL1”:空,
:“COL2 VAL2”,
:“COL3 VAL3”,
:“COL4 VAL4”,
:“COL5 VAL5”,
:“COL6 VAL6”,
:“COL8 VAL7”,
“COL9”: null
},
{
“COL1”:空,
:“COL2 VAL2”,
:“COL3 VAL3”,
:“COL4 VAL4”,
:“COL5 VAL5”,
:“COL6 VAL6”,
:“COL8 VAL7”,
“COL9”: null
},
{
“COL1”:空,
:“COL2 VAL2”,
:“COL3 VAL3”,
:“COL4 VAL4”,
:“COL5 VAL5”,
:“COL6 VAL6”,
:“COL8 VAL7”,
“COL9”: null
}
]
}
' ' '
我如何解決這個問題或者解決這個?
提前謝謝!
親切的問候,
丹尼斯
用下麵的代碼:
抽樣= sc.textFile (SourceFileFolder + sourcetable +“*。json”, 8) df = spark.read。選項(“頭”,“真正的”)。選項(“多行”,“真正的”). json(抽樣)
我得到
org.apache.spark。SparkException:工作階段失敗而終止:任務2階段7.0失敗了4次,最近的失敗:在舞台上失去了任務2.3 7.0 (TID 113)(10.139.64.6執行人8):. io .換行符之前IOException:太多的字節:2147483648
我遺漏了什麼東西?