需要一些幫助在選擇做重複數據刪除的數據。所以我在blob存儲傳感器數據,我撿磚自動裝卸機。可以有重複的數據和文件。
我選擇這兩個選項呢?
選項1:
選項2:
我將使用第二個選項,原因很簡單,deduped表實際上是原始數據但沒有重複。
除非你需要有一個三角洲湖表副本?
如果沒有,你隻會創造更多的開銷:你在blob存儲原始數據,青銅表dup和銀表沒有複製品。
所以你有3份相同的模式。選項2減少到2。
但是:除非你有理由保持dupδ表。
PS.注意,合並本身可以重複失敗的原因:
合並操作會失敗如果源數據集的多行匹配和merge試圖更新相同的目標三角洲表行。根據SQL合並的語義,等更新操作是模棱兩可的尚不清楚應該使用哪個源行更新匹配的目標行。
您可以使用水印挑選記錄和後期青銅表隻發送最新的記錄。這將確保你在青銅總是最新的信息表。
這個特性是詳細解釋//www.eheci.com/blog/2022/08/22/feature-deep-dive-watermarking-apache-spark-structured-st..。