取消
顯示的結果
而不是尋找
你的意思是:

三角洲,指定的鍵不存在的錯誤

alejandrofm
價值貢獻

嗨,我是有這個錯誤過於頻繁地在幾個表,我都要看看S3和分區和分區上的文件是否有存在。

錯誤:光譜掃描錯誤:DeltaManifest

代碼:15005

背景:錯誤抓取湖清單δ/產品/ sub_product / _symlink_format_manifest / data_date = 2022-03-04 / data_hour = 0 /清單信息:S3ServiceException:指定鍵不存在。地位404年,錯誤NoSuchKey P66ZVJ3X8MNZFEJH, ExtRid b4eWb8sgxF / 50

查詢:84792889

地點:scan_range_manager.cpp: 1171

過程:worker_thread (pid = 9064)

在描述曆史我看到:

SnapshotIsolation寫操作指標在0:{“numFiles”:“0”,“numOutputRows”:“0”,“numOutputBytes”:“0”}

和WriteSerializable寫操作與文件和輸出行。

隻寫曆史,所有的數據都是由磚加載工作。

任何的想法可能會發生什麼?我的解決方案,因為幾乎沒有數據刪除的文件存在但不能發現和再加工,但是我想要得到這個問題的根源。

可能是一個錯誤,當我運行之間的相關性真空嗎?(默認7天)不這麼認為,因為表沒有讀/寫每個查詢超過30分鍾。但也許這可以幫助!

謝謝! ! !

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

你可以試著改變隔離級別像這裏描述的https://docs.www.eheci.com/delta/concurrency-control.html

此外S3不支持並發寫道。這個問題是通過AWS提交解決。理論上AWS承諾解決這個問題,但你可以在這裏讀到它https://docs.www.eheci.com/administration-guide/cloud-configurations/aws/s3-commit-service.html

很難說,我從一開始就使用S3的服務但Azure數據存儲湖就像新的更美好的世界而為δ/數據使用S3湖。

在原帖子查看解決方案

3回複3

Hubert_Dudek1
尊敬的貢獻者三世

你可以試著改變隔離級別像這裏描述的https://docs.www.eheci.com/delta/concurrency-control.html

此外S3不支持並發寫道。這個問題是通過AWS提交解決。理論上AWS承諾解決這個問題,但你可以在這裏讀到它https://docs.www.eheci.com/administration-guide/cloud-configurations/aws/s3-commit-service.html

很難說,我從一開始就使用S3的服務但Azure數據存儲湖就像新的更美好的世界而為δ/數據使用S3湖。

alejandrofm
價值貢獻

謝謝@Hubert杜德克所以我可以嚐試設置這個失敗表可序列化的默認情況下,在案例中,我明白了這就是目前使用的曆史,但不能傷害

如圖所示:https://docs.www.eheci.com/delta/optimizations/isolation-level.html

ALTER TABLE <表名稱>設置TBLPROPERTIES(δ。isolationLevel”=“序列化”)

提交服務,我從來沒有超過1集群寫那些表和放心我這火花設置的工作:

. config (“spark.databricks.delta.multiClusterWrites.enabled”,“假”)

順便說一句,我從來沒有見過任何序列化錯誤在工作,他們在描述曆史嗎?

謝謝!

alejandrofm
價值貢獻

@Hubert杜德克,我會補充說,有時,隻是運行:

為表生成symlink_format_manifest schema.table

解決了它,但是,這個符號鏈接怎麼壞了?

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map