pyspark.sql.streaming.DataStreamReader

pyspark.sql.streaming。 DataStreamReader ( 火花:SparkSession )

接口用於加載一個流DataFrame從外部存儲係統(如文件係統、鍵值存儲等)。使用SparkSession.readStream來訪問。

筆記

這個API是不斷發展的。

方法

csv(路徑、模式、sep、編碼、引用、…))

加載一個CSV文件流並返回結果DataFrame

格式(源)

指定輸入數據源格式。

json(路徑、模式、primitivesAsString…))

加載一個JSON文件流並返回結果DataFrame

負載([路徑、格式模式])

從數據源加載數據流並返回它DataFrame

選項(關鍵字,值)

添加了一個底層數據源的輸入選項。

選項(* *選項)

增加了底層數據源的輸入選項。

獸人(路徑,pathGlobFilter mergeSchema…))

加載一個獸人文件流,返回的結果DataFrame

拚花(路徑,pathGlobFilter mergeSchema…))

加載一個鑲花的文件流,作為一個返回結果DataFrame

模式(模式)

指定輸入模式。

(表)

定義一個流DataFrame放在桌上。

文本(路徑,lineSep wholetext…))

加載一個文本文件,並返回一個流DataFrame的模式從一個字符串列命名為“價值”,和緊隨其後的是如果有任何分區的列。