10-26-202111:42我
嗨,夥計們,
看這種情況下:公司ACME(假設公司)
本公司不使用增量,但使用開源火花.parquet處理原始數據,我們有一個銷售的過程由每小時接收一個新的數據集(. csv) /生/銷售和寫入(df.write /了解/銷售。拚花…),幾小時後你如何不回收舊的數據集?
10-26-202101:02點
嗨威廉Scardua!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。
10-26-2021十一17點
你可以土地原始數據在一個文件夾日期/時間戳。
初版/生/銷售/ 2021/10/27 / dataset.csv
在火花程序可以從路徑程序隻讀一個特定日期(昨天今天,等等)。
如果你得到完整的提取每一天,這沒問題。缺點是原料存儲有很多冗餘數據(每天,因為完整的提取),但與數據湖泊這麼便宜,不是一個大問題。
最大的+δ國際海事組織的合並功能使您能夠進行增量的場景。
10-27-202101:42我
在這種情況下最好的選擇是使用火花自動裝載到檢測到新的csv(或新記錄)/生/比使用append添加記錄轉化為銷售和見解。
10-29-202104:49點
嗨@William Scardua,
像@Hubert杜德克提到,也許最好的選擇是使用自動加載程序。你可以找到文檔和例子如何使用它在這裏
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。