pyspark.streaming.DStream.countByValueAndWindow

DStream。 countByValueAndWindow ( windowDuration:int,slideDuration:int,numPartitions:可選(int]=沒有一個 )→pyspark.streaming.dstream.DStream(元組(T,int] ]

返回一個新的DStream每個抽樣包含不同元素的計數抽樣在這DStream滑動窗口。

參數
windowDuration int

窗口的寬度;必須是一個多個DStream的批處理區間

slideDuration int

滑動窗口的時間間隔(即。,the interval after which the new DStream will generate RDDs); must be a multiple of this DStream’s batching interval

numPartitions int,可選

分區數量的每個新DStream抽樣。