pyspark.streaming.DStream

pyspark.streaming。 DStream ( jdstream:py4j.java_gateway.JavaObject,ssc:StreamingContext,jrdd_deserializer:序列化器 )

離散流(DStream)的基本抽象引發流,是一個連續的序列抽樣(相同類型的)代表一個連續的數據流(見抽樣在火花核心文檔有關抽樣的更多細節)。

DStreams可以創建從實時數據(如TCP套接字、數據等)使用StreamingContext也可以通過改變現有DStreams生成使用等操作地圖,窗口reduceByKeyAndWindow。火花流程序運行時,每個DStream定期生成一個抽樣,從實時數據或改變父母DStream生成的抽樣。

DStreams內部特征是一些基本屬性:
  • 其他DStreams DStream取決於列表

  • 一個時間間隔的DStream生成一個抽樣

  • 一個函數,用於生成一個抽樣後每個時間間隔

方法

緩存()

持續的抽樣DStream使用默認存儲水平(MEMORY_ONLY)。

檢查點(間隔)

使這個DStream周期性的檢查點的抽樣

cogroup(其他[numPartitions])

返回一個新的DStream運用抽樣之間的cogroup DStream和其他DStream。

combineByKey(mergeValue createCombiner…)

返回一個新的DStream運用combineByKey抽樣。

上下文()

返回這個DStream StreamingContext

()

返回一個新的DStream每個抽樣有單個元素通過計算每個抽樣生成DStream。

countByValue()

返回一個新的DStream每個抽樣包含項的每個不同的值在每個抽樣DStream。

countByValueAndWindow(windowDuration…[…])

返回一個新的DStream每個抽樣包含不同元素的計數抽樣在這DStream滑動窗口。

countByWindow(windowDuration slideDuration)

返回一個新的DStream每個抽樣生成單個元素通過計算元素的數量在一個窗口DStream。

過濾器(f)

返回一個新的DStream隻包含的元素滿足謂詞。

flatMap(f [, preservesPartitioning])

通過應用一個函數返回一個新的DStream DStream的所有元素,然後壓扁的結果

flatMapValues(f)

返回一個新的DStream flatmap函數應用到每個鍵值對的值在這個DStream不改變的關鍵。

foreachRDD(函數)

一個函數應用於每個DStream抽樣。

fullOuterJoin(其他[numPartitions])

返回一個新的DStream運用抽樣之間的全外連接DStream和其他DStream。

()

返回一個新的DStream抽樣生成通過應用搶DStream()來抽樣。

groupByKey([numPartitions])

返回一個新的DStream運用groupByKey抽樣。

groupByKeyAndWindow(windowDuration…[…])

返回一個新的DStream通過應用groupByKey滑動窗口。

加入(其他[numPartitions])

返回一個新的DStream通過應用之間的“加入”DStream和抽樣其他DStream。

leftOuterJoin(其他[numPartitions])

返回一個新的DStream運用抽樣之間的左外連接DStream和其他DStream。

地圖(f [, preservesPartitioning])

通過應用一個函數返回一個新的DStream DStream的每個元素。

mapPartitions(f [, preservesPartitioning])

返回一個新的DStream每個抽樣生成通過應用mapPartitions DStream每個抽樣()。

mapPartitionsWithIndex(f […])

返回一個新的DStream每個抽樣生成通過應用mapPartitionsWithIndex DStream每個抽樣()。

mapValues(f)

返回一個新的DStream通過應用一個函數映射到值的每一個鍵值對DStream不改變的關鍵。

partitionBy(numPartitions [partitionFunc])

返回一個副本的DStream每個抽樣分區使用指定的分割者。

堅持(storageLevel)

持續的抽樣DStream與給定的存儲水平

pprint((num))

打印第一DStream num每個抽樣生成的元素。

減少(函數)

返回一個新的DStream每個抽樣有單個元素通過減少每個抽樣生成DStream。

reduceByKey(函數[numPartitions])

返回一個新的DStream運用reduceByKey抽樣。

reduceByKeyAndWindow(invFunc func…[…])

返回一個新的DStream運用增量reduceByKey滑動窗口。

reduceByWindow(invReduceFunc reduceFunc…)

返回一個新的DStream每個抽樣生成單個元素通過減少對這個DStream滑動窗口中的所有元素。

重新分區(numPartitions)

返回一個新的DStream增加或減少程度的並行性。

rightOuterJoin(其他[numPartitions])

返回一個新的DStream運用抽樣之間的右外連接DStream和其他DStream。

saveAsTextFiles(前綴,後綴)

保存每個抽樣在這個DStream文本文件,使用元素的字符串表示。

(開始、結束)

返回所有的抽樣之間的“開始”“結束”(包括兩個)

變換(函數)

返回一個新的DStream每個抽樣生成通過應用一個函數在每個抽樣DStream。

transformWith(函數,其他[keepSerializer])

返回一個新的DStream每個抽樣生成通過應用一個函數在每個抽樣DStream和DStream“其他”。

聯盟(其他)

返回一個新的DStream統一數據的另一個DStream DStream。

updateStateByKey(updateFunc […])

返回一個新的“狀態”DStream政府為每個關鍵更新通過給定的函數前的狀態和新價值觀的關鍵的關鍵。

窗口(windowDuration [slideDuration])

返回一個新的DStream每個抽樣包含的所有元素在時間滑動窗口中看到這個DStream。