取消
顯示的結果
而不是尋找
你的意思是:

使用DLT管道和增量數據

140015年
新的貢獻者三世

你好,

我想知道你想使用這個管道的三角洲住表當源不是增量。我的意思對我來說是假設數據提供者創建一個新文件夾與文件每次更新他們的數據(例如。/數據/ folder_1 /數據/ folder_2 /數據/ folder_3)。所以我需要處理整個新文件夾和刪除舊數據從以前的文件夾每次新更新的到來。

我知道dlt增量數據的設計和自動裝卸機。所以我最終運行完整的刷新我每次跑管道。現在我嚐試不使用自動裝載readStream(),而是使用簡單pyspark讀數據攝取到管道(),但現在“設置表”階段管道需要很長時間。

你怎麼認為?

1接受解決方案

接受的解決方案

AmarK
新的貢獻者三世
新的貢獻者三世

你好,

您可以定義一個生活流媒體直播視圖或表:

現場總表或視圖反映了查詢的結果定義,包括當定義表或視圖的查詢更新,或者更新一個輸入數據來源。像傳統的物化視圖,一個生活表或視圖時可能完全計算可能的優化計算資源和時間。

流媒體直播表或視圖的過程數據,隻添加了自上次管道更新。流表和視圖狀態;如果定義查詢發生變化,新的數據將根據新的查詢和處理現有的數據重新計算。

自動裝卸機可用於批處理通過使用readStream一個觸發器。一次選擇。https://learn.microsoft.com/en-us/azure/databricks/ingestion/auto-loader/production cost-considerati……

在情況下,您可以設置自動裝卸機readStream觀看新土地的文件路徑的文件通配符

input_stream = (

火花

.readStream.format (“cloudFiles”)

.option (“cloudFiles。格式”、“csv”)

. schema(“名稱字符串,字符串”)

.load (base_dir +“datasource_A_ /數據/ * / * . csv”)

)

在原帖子查看解決方案

2回答2

AmarK
新的貢獻者三世
新的貢獻者三世

你好,

您可以定義一個生活流媒體直播視圖或表:

現場總表或視圖反映了查詢的結果定義,包括當定義表或視圖的查詢更新,或者更新一個輸入數據來源。像傳統的物化視圖,一個生活表或視圖時可能完全計算可能的優化計算資源和時間。

流媒體直播表或視圖的過程數據,隻添加了自上次管道更新。流表和視圖狀態;如果定義查詢發生變化,新的數據將根據新的查詢和處理現有的數據重新計算。

自動裝卸機可用於批處理通過使用readStream一個觸發器。一次選擇。https://learn.microsoft.com/en-us/azure/databricks/ingestion/auto-loader/production cost-considerati……

在情況下,您可以設置自動裝卸機readStream觀看新土地的文件路徑的文件通配符

input_stream = (

火花

.readStream.format (“cloudFiles”)

.option (“cloudFiles。格式”、“csv”)

. schema(“名稱字符串,字符串”)

.load (base_dir +“datasource_A_ /數據/ * / * . csv”)

)

140015年
新的貢獻者三世

謝謝你的回答!

你知道怎麼保存創建流到三角洲表嗎?

我需要保存這個三角洲流到一個臨時表,然後做一些轉換嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map