07-04-202202:11我
你好,
我有一個差值表作為一個火花流源。
此表包含信號行級- >每個信號是一個附加的源表創建一個新的版本在三角洲地區的事務曆史。
我現在不確定如果我定義流火花是如何工作的
火花
.readStream
.format(“δ”)
.option (“startingVersion”、“最新”)
.option (“maxFilesPerTrigger”, 100年)
那些過去的100交易從三角洲事務曆史嗎?或過去100鋪文件嗎?
致以最親切的問候
邁克爾
07-05-2022“我
嗨@Michael加利,
的maxFilesPerTrigger將測量有多少新文件被認為是在每個micro-batch。默認值是1000。這將是你的三角洲表相關聯的文件。所以,從技術上講,這些將鑲花的文件。
07-05-2022下午10:58
Thx @Jose岡薩雷斯,這是有道理的。
我不完全理解的是δ表的作用在這件事上事務日誌。
如為每個micro-batch maxFilesPerTrigger設置為100個文件。
如果δ事務流源看起來有點像這個:如有70個文件每個事務。將微觀批1包含0和1的文件版本,微批2包含文件從版本1和2,等等?所以δ表版本並不是真正流微徽章大小有關嗎?
08-31-202201:56我
嘿@Michael加利
希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。
我們很想聽到你的聲音。
謝謝!
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。