pyspark.sql.streaming.DataStreamWriter.start¶
-
DataStreamWriter。
開始
( 路徑:可選(str]=沒有一個,格式:可選(str]=沒有一個,outputMode:可選(str]=沒有一個,partitionBy:聯盟(str,列表(str),沒有一個)=沒有一個,queryName:可選(str]=沒有一個,* *選項:OptionalPrimitiveType )→pyspark.sql.streaming.query.StreamingQuery¶ -
流的內容
DataFrame
一個數據源。指定的數據源
格式
和一組選項
。如果格式
沒有指定,默認數據源配置spark.sql.sources.default
就會被使用。- 參數
-
- 路徑 str,可選
-
Hadoop文件係統支持的路徑
- 格式 str,可選
-
用於保存的格式
- outputMode str,可選
-
指定數據流DataFrame /數據集是如何寫入到流水槽。
附加:隻有流中的新行DataFrame /數據集將被寫入到水槽裏
完整的:所有的行流DataFrame /數據集將被寫入到水槽每次這些更新
更新:隻有更新的行流DataFrame /數據集將寫入到水槽每次有一些更新。如果查詢不包含聚合,它將相當於附加模式。
- partitionBy str或列表,可選的
-
分區列的名字
- queryName str,可選
-
獨特的名稱查詢
- * *選項 dict
-
所有其他選項字符串。你可能需要提供一個checkpointLocation對於大多數流,但是它不是必需的內存流。
筆記
這個API是不斷發展的。
例子
> > >平方=自衛隊。writeStream。格式(“記憶”)。queryName(“this_query”)。開始()> > >平方。isActive真正的> > >平方。的名字“this_query”> > >平方。停止()> > >平方。isActive假> > >平方=自衛隊。writeStream。觸發(processingTime=“5秒”)。開始(…queryName=“that_query”,outputMode=“添加”,格式=“記憶”)> > >平方。的名字“that_query”> > >平方。isActive真正的> > >平方。停止()