嗨磚社區,
我有一個blob存儲文件夾,將收到文件下降,3文件在每個不同的下降:例文件A1, B1, C1是下降,A2、B2, C2是下一個。DLT管道我有設置有很多連接和聚合,使用DLT目前。讀(而不是read_stream)。連接隻需要考慮文件的數據在同一個下降(即A1數據永遠不會需要與B2合並數據)。
我最初讀取新文件到一個青銅層表流讀,但是我不確定什麼是最好的方法去。據我所知它dlt.read()將讀取所有數據在3銅表(它將包含A1……一個,B1……BN等等)這似乎是低效的規模和隻會重讀已經處理過的數據。所以我認為流讀取的方法使用,但我不得不選擇一個大水印間隔(每天說)因為我們可以得到多個數據集的一次下跌,他們是相當大的。
流讀取水印的方法使用這些增量文件滴?還是有一些其他的設計應該考慮我?
謝謝! !