pyspark.streaming.StreamingContext

pyspark.streaming。 StreamingContext ( sparkContext:pyspark.context.SparkContext,batchDuration:可選(int]=沒有一個,jssc:可選(py4j.java_gateway.JavaObject]=沒有一個 )

主要入口點火花流功能。StreamingContext代表連接火花集群,並可用於創建DStream不同的輸入源。它可以從現有的SparkContext。創建並將DStreams後,流計算可以啟動和停止使用context.start ()context.stop (),分別。context.awaitTermination ()允許當前線程等待終止的上下文stop ()或者是一個例外。

參數
sparkContext SparkContext

SparkContext對象。

batchDuration int,可選

的時間間隔(以秒為單位)流數據將被分為批次

方法

addStreamingListener(streamingListener)

添加一個[[org.apache.spark.streaming.scheduler。StreamingListener]]對象接收係統事件流有關。

awaitTermination((超時))

等待執行停止。

awaitTerminationOrTimeout(超時)

等待執行停止。

binaryRecordsStream(recordLength目錄)

創建一個輸入流,監測Hadoop-compatible為新文件和讀取文件係統平麵固定長度的二進製文件與記錄。

檢查點(目錄)

設置上下文來周期性的檢查點DStream操作掌握容錯。

getActive()

返回當前活躍StreamingContext(即。,如果有一個上下文啟動但不停止)或沒有。

getActiveOrCreate(checkpointPath setupFunc)

要麼主動StreamingContext(即返回。

getOrCreate(checkpointPath setupFunc)

從檢查點數據重建StreamingContext或創建一個新的StreamingContext。

queueStream(抽樣、oneAtATime違約)

從一個隊列創建一個輸入流抽樣或列表。

還記得(持續時間)

設置每個DStreams在這種背景下,記住抽樣生成在過去的時間。

socketTextStream(主機名、端口[,storageLevel])

創建一個輸入從源主機名:TCP端口。

開始()

開始的執行流。

停止([stopSparkContext stopGraceFully])

停止與選擇的執行流,確保所有接收的數據被處理。

textFileStream(目錄)

創建一個輸入流,監測Hadoop-compatible新文件和文件係統讀取文本文件。

變換(dstreams transformFunc)

創建一個新的DStream中每個抽樣是通過應用一個函數生成DStreams的抽樣。

聯盟(* dstreams)

創建一個統一的從多個相同類型的DStreams DStream和滑動時間相同。

屬性

sparkContext

返回SparkContext StreamingContext有關。