取消
顯示的結果
而不是尋找
你的意思是:

怎麼沒有三角洲不許重複使用舊文件?

William_Scardua
貢獻者三世

嗨,夥計們,

看這種情況下:公司ACME(假設公司)

本公司不使用增量,但使用開源火花.parquet處理原始數據,我們有一個銷售的過程由每小時接收一個新的數據集(. csv) /生/銷售和寫入(df.write /了解/銷售。拚花…),幾小時後你如何不回收舊的數據集?

7回複7

Kaniz
社區經理
社區經理

威廉Scardua!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

werners1
尊敬的貢獻者三世

你可以土地原始數據在一個文件夾日期/時間戳。

初版/生/銷售/ 2021/10/27 / dataset.csv

在火花程序可以從路徑程序隻讀一個特定日期(昨天今天,等等)。

如果你得到完整的提取每一天,這沒問題。缺點是原料存儲有很多冗餘數據(每天,因為完整的提取),但與數據湖泊這麼便宜,不是一個大問題。

最大的+δ國際海事組織的合並功能使您能夠進行增量的場景。

Hubert_Dudek1
尊敬的貢獻者三世

在這種情況下最好的選擇是使用火花自動裝載到檢測到新的csv(或新記錄)/生/比使用append添加記錄轉化為銷售和見解。

jose_gonzalez
主持人
主持人

嗨@William Scardua,

像@Hubert杜德克提到,也許最好的選擇是使用自動加載程序。你可以找到文檔和例子如何使用它在這裏

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map