取消
顯示的結果
而不是尋找
你的意思是:

火花流偵聽器是滯後的

Soma
價值貢獻

我們使用pyspark流偵聽器是落後了10小時

數據流在10點是記錄是下午10點

有人能解釋一下日誌監聽器接口是如何工作的嗎

9回複9

werners1
尊敬的貢獻者三世

哪一個是正確的?10點或者10點?
當你提到的進步。時間戳,你使用onQueryProgress嗎?因為這確實是異步處理。它被稱為有狀態更新。

Soma
價值貢獻

我有下麵的添加時間戳

microbatch_timestamp - - >這是來自流進展和顯示10點

batchid - >的火花batchid流也對應於10點

作為ingested_timestamp在哪裏顯示around10點加載日誌分析時是哪一個

def onQueryProgress ( 自我 ,queryProgress):
試一試 :
打印 ( “內部進展” )
#給ADLS輸入速率和處理時間
如果 (queryProgress.progress。numInputRows > = 0 :disappointed_face:
進步= queryProgress.progress
data = {
“Stream_id” :進展。 id . __str__ (),
“Stream_name” :progress.name,
“Event_type” : “查詢進展” ,
“runID” :progress.runId.__str__ (),
“microbatch_timestamp”: progress.timestamp.split [0] (' . '),
“ingested_timestamp”: datetime.now ()。Y strftime (“% - % - % d % H: % m: % s % f”),
“batchId” :progress.batchId,

werners1
尊敬的貢獻者三世

我明白了。
的時間戳流似乎是正確的(因為它們是經由StreamingQueryListener)。

這是一個時區的問題嗎?

Soma
價值貢獻

無火花在UTC和運行日誌分析或python模塊還使用UTC。

一個關鍵是即使在dev我們有相同的代碼,但是我們隻有一個延遲< 2分鍾。

pyspark聽眾一些潛在問題

werners1
尊敬的貢獻者三世

正確的時間是什麼?10點或者10點嗎?

因為10點與偵聽器無關,現在()

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map