pyspark.sql.streaming.DataStreamWriter.start¶

DataStreamWriter。 開始 ( 路徑:可選(str]=沒有一個,格式:可選(str]=沒有一個,outputMode:可選(str]=沒有一個,partitionBy:聯盟(str,列表(str),沒有一個)=沒有一個,queryName:可選(str]=沒有一個,* *選項:OptionalPrimitiveType )→pyspark.sql.streaming.query.StreamingQuery¶

流的內容DataFrame一個數據源。

指定的數據源格式和一組選項。如果格式沒有指定,默認數據源配置spark.sql.sources.default就會被使用。

參數

路徑 str,可選

Hadoop文件係統支持的路徑

格式 str,可選

用於保存的格式

outputMode str,可選

指定數據流DataFrame /數據集是如何寫入到流水槽。

附加:隻有流中的新行DataFrame /數據集將被寫入到水槽裏
完整的:所有的行流DataFrame /數據集將被寫入到水槽每次這些更新
更新:隻有更新的行流DataFrame /數據集將寫入到水槽每次有一些更新。如果查詢不包含聚合,它將相當於附加模式。

partitionBy str或列表,可選的

分區列的名字

queryName str,可選

獨特的名稱查詢

* *選項 dict

所有其他選項字符串。你可能需要提供一個checkpointLocation對於大多數流,但是它不是必需的內存流。

筆記

這個API是不斷發展的。

例子

           > > >平方=自衛隊。writeStream。格式(“記憶”)。queryName(“this_query”)。開始()> > >平方。isActive真正的> > >平方。的名字“this_query”> > >平方。停止()> > >平方。isActive假> > >平方=自衛隊。writeStream。觸發(processingTime=“5秒”)。開始(…queryName=“that_query”,outputMode=“添加”,格式=“記憶”)> > >平方。的名字“that_query”> > >平方。isActive真正的> > >平方。停止()
          

以前的

pyspark.sql.streaming.DataStreamWriter.queryName

下一個

pyspark.sql.streaming.DataStreamWriter.trigger