取消
顯示的結果
而不是尋找
你的意思是:

加載文件過濾PySpark last_modified

az38
新的貢獻者二世

嗨,社區!

你認為什麼是最好的方法從Azure ADLS加載(實際上,文件係統並不重要)到年df文件修改後一些時間點嗎?

有沒有像input_file_name()函數但last_modified使用它的方式嗎?

df = spark.read.json (“abfss: / / container@storageaccount.dfs.core.windows.net/ * / * / * / * / * . json) .withColumn(“文件名”,input_file_name ())。(“文件名= = * * * * * *”)

2回答2

pvignesh92
尊敬的貢獻者

嗨@Aleksei茹科夫,我不認為有一個內置的函數獲取源文件的時間戳。然而,如果你想使用磚執行增量攝入,有不同的方法

  1. 一個簡單的方法是使用磚自動裝卸機
  2. 其他方法是保持控製表來保持跟蹤上加載時間戳和保持與你的文件的修改時間戳來識別新文件並加載它們。這可能需要在Python中火花沒有直接的功能
  3. 你將處理的文件移動到存檔路徑,這樣您的輸入路徑就會有新的文件,你需要的過程。

這正是我在最近有了媒介的博客。請看看這個幫助。

- - -

磚自動加載器是一個有趣的功能,可用於數據加載增量。

✳它可以處理新的數據文件,因為他們到達雲存儲對象

✳它可以用於攝取JSON、CSV、拚花,AVRO,獸人,甚至文本和二進製文件格式

✳自動加載器可以支持的規模甚至每小時百萬文件。它保持在一個檢查站位置狀態信息在一個名為RocksDB的鍵值存儲。的狀態現在維護檢查點,它甚至可以從那裏離開的簡曆在失敗的時候,能保證隻有一次語義。

請查收我的帳麵價值的磚自動裝卸機中。快樂的任何反饋:slightly_smiling_face:

:dim_button:磚自動裝卸機係列,加速增量數據攝入:https://lnkd.in/ew3vaPmp

:dim_button:磚自動裝載機係列-基礎:https://lnkd.in/e2zanWfc

謝謝,

Vignesh

venkatcrc
新的貢獻者三世

_metadata將提供文件修改時間戳。我試著為ADLS dbfs但不確定。

https://docs.www.eheci.com/ingestion/file-metadata-column.html

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map