11-28-2021上午09:04
我有一個流媒體工作運行groupBy查詢3天的一個窗口。查詢正在尋找不同類型的事件。
流配置了runOnce定於每小時有一份工作。
現在,我每次都是處理不確定數據流觸發,如果隻有一個新的事件還有其他相關事件的窗口時間但事件已經處理過的在前麵跑。它是隻看新數據?或全部查詢的相關數據在窗口嗎?
11-28-2021上午09:16
在我看來groupBy流一次隻會為新數據將使用抵消從檢查站和舊數據將不可用。
11-29-2021上午10:54
嗨@itay k,
你需要看一看記者的進展。這將顯示Micro-batch JSON指標。例如,指標稱為“numInputRows”將顯示輸入的行數,micro-batch處理。你會發現這些指標的驅動程序- - > log4j日誌
此外,本文將展示這些流指標均值和如何訪問/視圖//www.eheci.com/blog/2020/07/29/a-look-at-the-new-structured-streaming-ui-in-apache-spark-3-0..。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。