取消
顯示的結果
而不是尋找
你的意思是:

重複數據刪除、青銅(生)或銀(豐富)

baatchus
新的貢獻者三世

需要一些幫助在選擇做重複數據刪除的數據。所以我在blob存儲傳感器數據,我撿磚自動裝卸機。可以有重複的數據和文件。

我選擇這兩個選項呢?

選項1:

  • 創建一個青銅(生)三角洲湖表隻讀取的文件自動裝卸機和附加數據。
  • 創建一個銀(豐富)三角洲湖表,從青銅表讀取和刪除處理合並嗎?
  • 創建一個銀(豐富)三角洲湖,從第一個銀表讀取並連接與另一個表。

選項2:

  • 創建一個青銅(生)三角洲湖表讀取的文件自動裝卸機和並合並成刪除處理
  • 創建一個銀(豐富)三角洲湖表讀取從第一個銀表和連接與另一個表。

3回複3

werners1
尊敬的貢獻者三世

我將使用第二個選項,原因很簡單,deduped表實際上是原始數據但沒有重複。

除非你需要有一個三角洲湖表副本?

如果沒有,你隻會創造更多的開銷:你在blob存儲原始數據,青銅表dup和銀表沒有複製品。

所以你有3份相同的模式。選項2減少到2。

但是:除非你有理由保持dupδ表。

PS.注意,合並本身可以重複失敗的原因:

合並操作會失敗如果源數據集的多行匹配和merge試圖更新相同的目標三角洲表行。根據SQL合並的語義,等更新操作是模棱兩可的尚不清楚應該使用哪個源行更新匹配的目標行。

peter_mcnally
新的貢獻者三世

我很好奇你決定做什麼。也可能你現在會做什麼。我有一些傳感器數據我抓住一個API基於日期字段。配置API的方式,可能會有一些重疊的時間我想dedup任何這樣的記錄。

謝謝!

Tharun-Kumar
重視貢獻三世
重視貢獻三世

@peter_mcnally

您可以使用水印挑選記錄和後期青銅表隻發送最新的記錄。這將確保你在青銅總是最新的信息表。

這個特性是詳細解釋//www.eheci.com/blog/2022/08/22/feature-deep-dive-watermarking-apache-spark-structured-st..。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map