pyspark.sql.streaming.DataStreamWriter.foreachBatch

DataStreamWriter。 foreachBatch ( 函數:可調用的[[DataFrame, int),沒有一個) )→DataStreamWriter

集的輸出流查詢處理使用提供的功能。這是隻支持micro-batch執行模式(即,當觸發器是不連續的)。在每個micro-batch,所提供的功能將在每個micro-batch叫做(我)輸出行DataFrame和(2)批標識符。可以使用batchId刪除處理,以事務的方式寫輸出(即提供數據集)外部係統。輸出DataFrame保證相同的相同batchId(假設所有操作查詢中是決定性的)。

筆記

這個API是不斷發展的。

例子

> > >def函數(batch_df,batch_id):batch_df收集()> > >作家=自衛隊writeStreamforeachBatch(函數)