取消
顯示的結果
而不是尋找
你的意思是:

自動裝卸機:如何避免重疊在文件

werners1
尊敬的貢獻者三世

我想使用自動裝卸機處理文件被放在我們的數據。

假設遠東每15分鍾,拚花文件編寫。然而這些文件包含重疊的數據

現在,每2小時我要處理新數據(自動裝卸機),合並成一個三角洲湖表。

這似乎很簡單,但不幸的是它不是:

自動裝卸機獲取新數據時,流媒體查詢將包含重複數據的兩種類型:實際dup(可以用dropDuplicates下降),而且不同版本的相同的記錄(記錄可以在一段時間內多次更新)。我想過程隻有最新版本(基於修改日期列)。

最後一部分,我不知道我如何可以解決這個流查詢。

批,我將使用一個窗口功能分區的語義關鍵(id)和時間戳排序。

但是對於流媒體這是不可能的。

那麼,有什麼想法?

基本上它是“火花流保持最新記錄組的問題。

2回答2

Hubert_Dudek1
尊敬的貢獻者三世

forEachBatch然後合並呢?

另外,另一個進程運行,將幹淨的更新使用窗口函數,正如你所說。

werners1
尊敬的貢獻者三世

forEachBatch是選項之一,但隨後合並需要很長時間(每個文件合並)。

也(我忘了提到):一個文件也可以包含多個版本的一個記錄。

不使用自動裝卸機似乎目前的路要走,但它畢竟不就好了,如果它是可能的很多開銷。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map