再保險:讀取數據從“dbfs: / mnt /”——磚- 16241

帕特 · ‎12-16-2022

嗨,社區,

我不知道發生了什麼《旅。

我有一個使用情況數據寫入的位置“dbfs: / mnt /……”,不要問我為什麼,這隻是一個小項目。我相信在ADLS2數據存儲。

我一直試圖讀取數據後寫的但是當我試著從文件夾中讀取數據:

df = spark.read.format(“鋪”).load (“dbfs: / mnt /表/”)或df = spark.read.format .load(“鋪”)(“dbfs: / mnt /表/日期= 2022-12-16 ")

我:AnalysisException:無法推斷模式拚花。它必須手動指定。

當我提供模式,count = 0(零):

df.count ()

但是當我拚花提供完整路徑文件工作原理:

df = spark.read.format(“鋪”).load (“dbfs: / mnt /表/日期= 2022-12-16 / some-spark-file.snappy.parquet”) df.count ()

它返回700行。

什麼好主意嗎?

帕特 · ‎12-16-2022

我還不知道發生了什麼,但是我已經重新運行工作在較小的數據集,似乎工作,可能損壞數據?

Chaitanya_Raju · ‎12-16-2022

是的,也許某個分區的數據或文件有損壞,對我來說,是工作正常的拚花的數據樣本,我可以能夠閱讀沒有任何問題。

Aviral-Bhardwaj · ‎12-17-2022

這是非常有趣的從未麵臨這種情況od @Pat Sienkiewicz請分享整個代碼,我們可以在我們的係統測試和調試

謝謝

Aviral

帕特 · ‎12-18-2022

嗨@Aviral Bhardwaj,

我將試著re-produce這個。我認為至少一個文件是損壞的,但是我希望不同的錯誤在這種情況下,不長時間運行的工作失敗無法推斷模式為拚花。它必須指定manually.”