10-26-202111:42我
嗨,夥計們,
看這種情況下:公司ACME(假設公司)
本公司不使用增量,但使用開源火花.parquet處理原始數據,我們有一個銷售的過程由每小時接收一個新的數據集(. csv) /生/銷售和寫入(df.write /了解/銷售。拚花…),幾小時後你如何不回收舊的數據集?
11-01-2021上午11:44
嗨@Jose岡薩雷斯,
我同意最好的選擇是使用自動加載,但某些情況下你沒有磚plataform和不使用的三角洲,我這情況下,您需要建立一個方法來處理新的原始文件
11-02-202101:35我
在這種情況下,我建議我的建議我們這樣的工作相當多的數據流。
11-02-202105:01我
磚autloader作品優秀的csv等也與其他類型的文件,如果你不想使用流可以觸發一次。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。