pyspark.sql.streaming.DataStreamWriter.foreachBatch¶
-
DataStreamWriter。
foreachBatch
( 函數:可調用的[[DataFrame, int),沒有一個) )→DataStreamWriter¶ -
集的輸出流查詢處理使用提供的功能。這是隻支持micro-batch執行模式(即,當觸發器是不連續的)。在每個micro-batch,所提供的功能將在每個micro-batch叫做(我)輸出行DataFrame和(2)批標識符。可以使用batchId刪除處理,以事務的方式寫輸出(即提供數據集)外部係統。輸出DataFrame保證相同的相同batchId(假設所有操作查詢中是決定性的)。
筆記
這個API是不斷發展的。
例子
> > >def函數(batch_df,batch_id):…batch_df。收集()…> > >作家=自衛隊。writeStream。foreachBatch(函數)