怎麼沒有三角洲不許重複使用舊文件?頁2 -磚- 12333

William_Scardua · ‎10-26-2021

嗨,夥計們,

看這種情況下:公司ACME(假設公司)

本公司不使用增量,但使用開源火花.parquet處理原始數據,我們有一個銷售的過程由每小時接收一個新的數據集(. csv) /生/銷售和寫入(df.write /了解/銷售。拚花…),幾小時後你如何不回收舊的數據集?

William_Scardua · ‎11-01-2021

嗨@Jose岡薩雷斯,

我同意最好的選擇是使用自動加載,但某些情況下你沒有磚plataform和不使用的三角洲,我這情況下,您需要建立一個方法來處理新的原始文件

werners1 · ‎11-02-2021

在這種情況下,我建議我的建議我們這樣的工作相當多的數據流。

Hubert_Dudek1 · ‎11-02-2021

磚autloader作品優秀的csv等也與其他類型的文件,如果你不想使用流可以觸發一次。