你好,
我想知道你想使用這個管道的三角洲住表當源不是增量。我的意思對我來說是假設數據提供者創建一個新文件夾與文件每次更新他們的數據(例如。/數據/ folder_1 /數據/ folder_2 /數據/ folder_3)。所以我需要處理整個新文件夾和刪除舊數據從以前的文件夾每次新更新的到來。
我知道dlt增量數據的設計和自動裝卸機。所以我最終運行完整的刷新我每次跑管道。現在我嚐試不使用自動裝載readStream(),而是使用簡單pyspark讀數據攝取到管道(),但現在“設置表”階段管道需要很長時間。
你怎麼認為?
你好,
您可以定義一個生活或流媒體直播視圖或表:
現場總表或視圖反映了查詢的結果定義,包括當定義表或視圖的查詢更新,或者更新一個輸入數據來源。像傳統的物化視圖,一個生活表或視圖時可能完全計算可能的優化計算資源和時間。
流媒體直播表或視圖的過程數據,隻添加了自上次管道更新。流表和視圖狀態;如果定義查詢發生變化,新的數據將根據新的查詢和處理現有的數據重新計算。
自動裝卸機可用於批處理通過使用readStream一個觸發器。一次選擇。https://learn.microsoft.com/en-us/azure/databricks/ingestion/auto-loader/production cost-considerati……。
在情況下,您可以設置自動裝卸機readStream觀看新土地的文件路徑的文件通配符
input_stream = (
火花
.readStream.format (“cloudFiles”)
.option (“cloudFiles。格式”、“csv”)
. schema(“名稱字符串,字符串”)
.load (base_dir +“datasource_A_ /數據/ * / * . csv”)
)
你好,
您可以定義一個生活或流媒體直播視圖或表:
現場總表或視圖反映了查詢的結果定義,包括當定義表或視圖的查詢更新,或者更新一個輸入數據來源。像傳統的物化視圖,一個生活表或視圖時可能完全計算可能的優化計算資源和時間。
流媒體直播表或視圖的過程數據,隻添加了自上次管道更新。流表和視圖狀態;如果定義查詢發生變化,新的數據將根據新的查詢和處理現有的數據重新計算。
自動裝卸機可用於批處理通過使用readStream一個觸發器。一次選擇。https://learn.microsoft.com/en-us/azure/databricks/ingestion/auto-loader/production cost-considerati……。
在情況下,您可以設置自動裝卸機readStream觀看新土地的文件路徑的文件通配符
input_stream = (
火花
.readStream.format (“cloudFiles”)
.option (“cloudFiles。格式”、“csv”)
. schema(“名稱字符串,字符串”)
.load (base_dir +“datasource_A_ /數據/ * / * . csv”)
)