取消
顯示的結果
而不是尋找
你的意思是:

怎麼沒有三角洲不許重複使用舊文件?

William_Scardua
貢獻者三世

嗨,夥計們,

看這種情況下:公司ACME(假設公司)

本公司不使用增量,但使用開源火花.parquet處理原始數據,我們有一個銷售的過程由每小時接收一個新的數據集(. csv) /生/銷售和寫入(df.write /了解/銷售。拚花…),幾小時後你如何不回收舊的數據集?

7回複7

William_Scardua
貢獻者三世

嗨@Jose岡薩雷斯,

我同意最好的選擇是使用自動加載,但某些情況下你沒有磚plataform和不使用的三角洲,我這情況下,您需要建立一個方法來處理新的原始文件

werners1
尊敬的貢獻者三世

在這種情況下,我建議我的建議:slightly_smiling_face:我們這樣的工作相當多的數據流。

Hubert_Dudek1
尊敬的貢獻者三世

磚autloader作品優秀的csv等也與其他類型的文件,如果你不想使用流可以觸發一次。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map