pyspark.streaming.DStream.reduceByWindow

DStream。 reduceByWindow ( reduceFunc:可調用的((T,T],T],invReduceFunc:可選(可調用的((T,T],T]],windowDuration:int,slideDuration:int )→pyspark.streaming.dstream.DStream(T]

返回一個新的DStream每個抽樣生成單個元素通過減少對這個DStream滑動窗口中的所有元素。

如果invReduceFunc不是沒有,逐步減少了使用舊窗口的減少值:

  1. 減少進入的新值窗口(例如,添加新項)

2。“逆減少”離開了窗口的舊值(例如,減去舊計數)這是更有效的比invReduceFunc是沒有。

參數
reduceFunc 函數

聯想和交換減少功能

invReduceFunc 函數

逆reduce函數的reduceFunc;這樣對所有y,可逆的x:invReduceFunc (reduceFunc (x, y), x) = y

windowDuration int

窗口的寬度;必須是一個多個DStream的批處理區間

slideDuration int

滑動窗口的時間間隔(即。,the interval after which the new DStream will generate RDDs); must be a multiple of this DStream’s batching interval