取消
顯示的結果
而不是尋找
你的意思是:

錯誤鋪寫文件

JEAG
新的貢獻者三世

你好,我們每天都有這一連串的錯誤在不同的文件和流程:

調用o11255.parquet時發生一個錯誤。

:org.apache.spark。SparkException:工作中止。

引起的:org.apache.spark。SparkException:工作階段失敗而終止:任務0階段982.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 982.0 (TID 85705、172.20.45.5執行人31):org.apache.spark。SparkException:任務失敗而寫的行。

引起的:com.databricks.sql.io。FileReadException:讀取文件時錯誤dbfs:……它是可能的底層文件已經更新。您可以顯式地火花的緩存失效運行“REFRESH TABLE表”命令的SQL或重新創建數據集/ DataFrame參與。

引起的:shaded.parquet.org.apache.thrift.transport.TTransportException: . io .IOException:流關閉!

引起的:java。IOException:流關閉!

引起的:java。FileNotFoundException: dbfs: /…

現在,我們再次修理它刪除文件和運行工作,但我們不知道如何避免´錯誤

任何想法?

謝謝

15日回複15

jose_gonzalez
主持人
主持人

嗨@Jose擊中Aznarte加西亞,

像@Dan征服者說,這是由於發生文件更新/改變你的工作執行期間。你手動刪除數據或刪除和重新創建表在同一個地方嗎?我要強烈推薦使用三角洲。通過使用δ,您會避免這種錯誤。

Dan_Z
尊敬的貢獻者

δ+ 1 !

JEAG
新的貢獻者三世

謝謝你的答案

環境,我們在磚運行批處理作業運行時版本6.4,與Apache火花2.4.5和我們的代碼是在Python中第3.7.6寫的

今天我們都意識到我們的錯誤發生在相同的存儲賬戶,但是在不同的文件和不同的工作之前我告訴過你

可能的錯誤可能是一個過載存儲?

我發現一個文件“_commited_vacuum”拚花目錄導致一個錯誤,這是什麼意思?

匿名
不適用

真空意味著三角洲是刪除文件。不要讀δ拚花是重要的文件與拚花的讀者,因為它將導致版本問題。表由三角洲嗎?

邊注,重要的是要盡快更新到3.2。AQE在3.0版本會解決很多bug和加快查詢。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map