大家好,我有一些麻煩添加重複數據刪除步驟已經運行的文件流。我想添加的代碼是這個:
df = df。withWatermark (“arrival_time”、“20分鍾”)\ .dropDuplicates ([“event_id”、“arrival_time”])
然而,我得到以下錯誤。
引起的:. lang。HDFSStateStoreProvider IllegalStateException:錯誤閱讀流狀態文件[id = (op = 0 = 101), dir = dbfs: / mnt /檢查點/ silver_events /州/ 0/101):dbfs: / mnt /檢查點/ silver_events /州/ 0/101/1.delta並不存在。如果流的工作重新開始一個新的或更新的狀態操作,請創建一個新的檢查點位置或清除現有檢查點位置。
錯過兩個問題是:
謝謝你!
嗨@patricio東城,你可以減少重複記錄在事件數據流使用一個惟一的標識符。這是完全相同的重複數據刪除靜態使用一個惟一的標識符列。必要的查詢將存儲的數據量從以前的記錄,這樣它可以過濾重複的記錄。類似於聚合,可以使用重複數據刪除有或沒有水印。
解決方案1。
解決方案2。
嗨@patricio東城,你可以減少重複記錄在事件數據流使用一個惟一的標識符。這是完全相同的重複數據刪除靜態使用一個惟一的標識符列。必要的查詢將存儲的數據量從以前的記錄,這樣它可以過濾重複的記錄。類似於聚合,可以使用重複數據刪除有或沒有水印。
解決方案1。
解決方案2。