取消
顯示的結果
而不是尋找
你的意思是:

如何使用foreachbatch deltalivetable還是DLT ?

rdobbss
新的貢獻者二世

我需要處理一些對傳入的數據作為一個批處理轉換,想知道如果有辦法用在deltalivetable foreachbatch選項。我用自動裝卸機加載json文件,然後我需要應用foreachbatch和將結果存儲到另一個表。

4回複4

Kaniz
社區經理
社區經理

嗨@Ravi Dobariya,這配方幫助你寫流聚集在更新模式中使用合並和foreachBatch磚差值表。

rdobbss
新的貢獻者二世

@Kaniz Fatma我知道關於這個但是我更專門尋找使用foreach三角洲住表中管道。我知道如何才能實現在常規筆記本電腦但是沒有找到任何三角洲住表

TomRenish
新的貢獻者三世

不確定是否這將適用於您……

我看著foreachbatch工具來減少工作量的不同的數據從2000萬+的曆史表記錄,因為df.dropDuplicates()函數是間歇性DLT管道執行期間耗盡內存。我最終這樣做:

# #定義目標表最後瓦爾

dlt.create_target_table (“stg_service_requests_unpacked_new_distinct”)

#使用應用變化函數執行合並

dlt.apply_changes (

目標= " stg_service_requests_unpacked_new_distinct ",

源= " stg_service_requests_unpacked_new ",

鍵= dupe_cols_evaluation,

sequence_by =坳(“_hdr_time_in_ms”),

)

dupe_cols_evaluation是一個python列表,我定義重複數據刪除的列來評估。輸出似乎是正確的和運行增量更新對這個過程非常迅速。

JohnA
新的貢獻者三世

你耗盡內存使用.dropDuplicates流,因為您需要指定一個流媒體水印數據定義一個閾值,後期可以忽略和國家不再需要保持的時間框架。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map