pyspark.sql.streaming.DataStreamWriter.start

DataStreamWriter。 開始 ( 路徑:可選(str]=沒有一個,格式:可選(str]=沒有一個,outputMode:可選(str]=沒有一個,partitionBy:聯盟(str,列表(str),沒有一個)=沒有一個,queryName:可選(str]=沒有一個,* *選項:OptionalPrimitiveType )→pyspark.sql.streaming.query.StreamingQuery

流的內容DataFrame一個數據源。

指定的數據源格式和一組選項。如果格式沒有指定,默認數據源配置spark.sql.sources.default就會被使用。

參數
路徑 str,可選

Hadoop文件係統支持的路徑

格式 str,可選

用於保存的格式

outputMode str,可選

指定數據流DataFrame /數據集是如何寫入到流水槽。

  • 附加:隻有流中的新行DataFrame /數據集將被寫入到水槽裏

  • 完整的:所有的行流DataFrame /數據集將被寫入到水槽每次這些更新

  • 更新:隻有更新的行流DataFrame /數據集將寫入到水槽每次有一些更新。如果查詢不包含聚合,它將相當於附加模式。

partitionBy str或列表,可選的

分區列的名字

queryName str,可選

獨特的名稱查詢

* *選項 dict

所有其他選項字符串。你可能需要提供一個checkpointLocation對於大多數流,但是它不是必需的內存流。

筆記

這個API是不斷發展的。

例子

> > >平方=自衛隊writeStream格式(“記憶”)queryName(“this_query”)開始()> > >平方isActive真正的> > >平方的名字“this_query”> > >平方停止()> > >平方isActive> > >平方=自衛隊writeStream觸發(processingTime=“5秒”)開始(queryName=“that_query”,outputMode=“添加”,格式=“記憶”)> > >平方的名字“that_query”> > >平方isActive真正的> > >平方停止()