你好,
我想知道你想使用這個管道的三角洲住表當源不是增量。我的意思對我來說是假設數據提供者創建一個新文件夾與文件每次更新他們的數據(例如。/數據/ folder_1 /數據/ folder_2 /數據/ folder_3)。所以我需要處理整個新文件夾和刪除舊數據從以前的文件夾每次新更新的到來。
我知道dlt增量數據的設計和自動裝卸機。所以我最終運行完整的刷新我每次跑管道。現在我嚐試不使用自動裝載readStream(),而是使用簡單pyspark讀數據攝取到管道(),但現在“設置表”階段管道需要很長時間。
你怎麼認為?
你好,
您可以定義一個生活或流媒體直播視圖或表:
現場總表或視圖反映了查詢的結果定義,包括當定義表或視圖的查詢更新,或者更新一個輸入數據來源。像傳統的物化視圖,一個生活表或視圖時可能完全計算可能的優化計算資源和時間。
流媒體直播表或視圖的過程數據,隻添加了自上次管道更新。流表和視圖狀態;如果定義查詢發生變化,新的數據將根據新的查詢和處理現有的數據重新計算。
自動裝卸機可用於批處理通過使用readStream一個觸發器。一次選擇。https://learn.microsoft.com/en-us/azure/databricks/ingestion/auto-loader/production cost-considerati……。
在情況下,您可以設置自動裝卸機readStream觀看新土地的文件路徑的文件通配符
input_stream = (
火花
.readStream.format (“cloudFiles”)
.option (“cloudFiles。格式”、“csv”)
. schema(“名稱字符串,字符串”)
.load (base_dir +“datasource_A_ /數據/ * / * . csv”)
)
你好,
您可以定義一個生活或流媒體直播視圖或表:
現場總表或視圖反映了查詢的結果定義,包括當定義表或視圖的查詢更新,或者更新一個輸入數據來源。像傳統的物化視圖,一個生活表或視圖時可能完全計算可能的優化計算資源和時間。
流媒體直播表或視圖的過程數據,隻添加了自上次管道更新。流表和視圖狀態;如果定義查詢發生變化,新的數據將根據新的查詢和處理現有的數據重新計算。
自動裝卸機可用於批處理通過使用readStream一個觸發器。一次選擇。https://learn.microsoft.com/en-us/azure/databricks/ingestion/auto-loader/production cost-considerati……。
在情況下,您可以設置自動裝卸機readStream觀看新土地的文件路徑的文件通配符
input_stream = (
火花
.readStream.format (“cloudFiles”)
.option (“cloudFiles。格式”、“csv”)
. schema(“名稱字符串,字符串”)
.load (base_dir +“datasource_A_ /數據/ * / * . csv”)
)
在處理B2B數據建設、更新和管理您的數據可以帶來獨特的挑戰。因為你的數據更新包括新的文件夾和文件,你需要處理整個新文件夾,增量的概念處理可能不直接適用於您的情況。每次運行一個完整的更新可能確實是必要的,當你每次都有效地處理新的數據塊。這種方法,雖然不是一樣高效的增量式更新通常用於B2B數據建築,可能是最直接的數據來源的行為。
在B2B領域數據構建工具如生活表和δ湖仍然可以高度相關的在這種情況下,特別是如果你正在使用大量的數據或需要ACID事務和模式演化特性。這些技術提供了一個健壯的框架來管理複雜數據的工作流。然而,由於你的數據更新不真正的增量,優化dlt的好處可能不會充分利用您的特定環境。盡管如此,利用dlt仍然可以提供有價值的好處和改進的數據組織,版本控製,和元數據管理,維持高質量的B2B數據方麵的關鍵。