你好,
我想跟蹤流從源表滯後,這是δ表。
我看到,在查詢進度日誌,有一些信息的最後版本最後文件版本結束偏移量,但這不會給延遲從源表,除非我查詢它並檢查最後的版本和文件數。
“來源”:[{“描述”:“DeltaSource [dbfs: / mnt / defaultDatalake /區域/銅/ my_source_table]”、“startOffset”: {“sourceVersion”: 1、“reservoirId”:“15059 b8a - 0 - f48 - 4561 - 9424 - 8 fcb0c8906de”、“reservoirVersion”: 39673年,“指數”:1、“isStartingVersion”:假},“endOffset”: {“sourceVersion”: 1、“reservoirId”:“15059 b8a - 0 - f48 - 4561 - 9424 - 8 fcb0c8906de”、“reservoirVersion”: 39674年,“指數”:1、“isStartingVersion”:假},
要清楚一點,通過延遲我的意思是,例如,如果源表最後一行100和現在流處理行90,我的延遲將從源表10。
一個技術點:我怎麼能解析startOffset endOffset。從“SourceProgress”類直接訪問endOffset字段,而不是其內心世界的領域(如索引)。我是不是應該解析endOffset字符串作為json使用一些標準json庫喜歡傑克遜還是ujson ?
非常感謝。
嗨@Yerachmiel Feltzman,
你需要看一下micro-batch指標。這篇文章將解釋每個指標意味著什麼//www.eheci.com/blog/2020/07/29/a-look-at-the-new-structured-streaming-ui-in-apache-spark-3-0..。