加載文件過濾通過last_modified PySpark -磚- 4159

az38 · ‎05-19-2023

嗨,社區!

你認為什麼是最好的方法從Azure ADLS加載(實際上,文件係統並不重要)到年df文件修改後一些時間點嗎?

有沒有像input_file_name()函數但last_modified使用它的方式嗎?

df = spark.read.json (“abfss: / /(電子郵件保護)/ * / * / * / * / * . json)。withColumn(“文件名”,input_file_name ())。(“文件名= = * * * * * *”)

pvignesh92 · ‎05-22-2023

嗨@Aleksei茹科夫,我不認為有一個內置的函數獲取源文件的時間戳。然而,如果你想使用磚執行增量攝入,有不同的方法

這正是我在最近有了媒介的博客。請看看這個幫助。

- - -

磚自動加載器是一個有趣的功能,可用於數據加載增量。

✳它可以處理新的數據文件,因為他們到達雲存儲對象

✳它可以用於攝取JSON、CSV、拚花,AVRO,獸人,甚至文本和二進製文件格式

✳自動加載器可以支持的規模甚至每小時百萬文件。它保持在一個檢查站位置狀態信息在一個名為RocksDB的鍵值存儲。的狀態現在維護檢查點,它甚至可以從那裏離開的簡曆在失敗的時候,能保證隻有一次語義。

請查收我的帳麵價值的磚自動裝卸機中。快樂的任何反饋

磚自動裝卸機係列,加速增量數據攝入:https://lnkd.in/ew3vaPmp

磚自動裝載機係列-基礎:https://lnkd.in/e2zanWfc

謝謝,

Vignesh

venkatcrc · ‎05-22-2023

_metadata將提供文件修改時間戳。我試著為ADLS dbfs但不確定。

磚