pyspark.sql.streaming.DataStreamReader.csv¶
-
DataStreamReader。
csv
( 路徑:str,模式:(pyspark.sql.types聯盟。StructType str,沒有)=沒有一個,9月:可選(str]=沒有一個,編碼:可選(str]=沒有一個,報價:可選(str]=沒有一個,逃避:可選(str]=沒有一個,評論:可選(str]=沒有一個,頭:聯盟(bool, str,沒有)=沒有一個,inferSchema:聯盟(bool, str,沒有)=沒有一個,ignoreLeadingWhiteSpace:聯盟(bool, str,沒有)=沒有一個,ignoreTrailingWhiteSpace:聯盟(bool, str,沒有)=沒有一個,nullValue:可選(str]=沒有一個,nanValue:可選(str]=沒有一個,positiveInf:可選(str]=沒有一個,negativeInf:可選(str]=沒有一個,dateFormat:可選(str]=沒有一個,timestampFormat:可選(str]=沒有一個,maxColumns:聯盟(str, int,沒有)=沒有一個,maxCharsPerColumn:聯盟(str, int,沒有)=沒有一個,maxMalformedLogPerPartition:聯盟(str, int,沒有)=沒有一個,模式:可選(str]=沒有一個,columnNameOfCorruptRecord:可選(str]=沒有一個,多行:聯盟(bool, str,沒有)=沒有一個,charToEscapeQuoteEscaping:聯盟(bool, str,沒有)=沒有一個,enforceSchema:聯盟(bool, str,沒有)=沒有一個,emptyValue:可選(str]=沒有一個,語言環境:可選(str]=沒有一個,lineSep:可選(str]=沒有一個,pathGlobFilter:聯盟(bool, str,沒有)=沒有一個,recursiveFileLookup:聯盟(bool, str,沒有)=沒有一個,unescapedQuoteHandling:可選(str]=沒有一個 )→DataFrame¶ -
加載一個CSV文件流並返回結果
DataFrame
。這個函數將通過確定輸入模式如果輸入一次
inferSchema
啟用。為了避免經曆整個數據一次,禁用inferSchema
選項或顯式地指定模式使用模式
。- 參數
-
- 路徑 str或列表
-
字符串或字符串列表,輸入路徑(s)。
-
模式
pyspark.sql.types.StructType
或str,可選 -
一個可選的
pyspark.sql.types.StructType
輸入模式或DDL-formatted字符串(例如col0INT,col1雙
)。
- 其他參數
-
- 額外的選項
-
額外的選項,請參考數據源的選擇在你使用的版本。
筆記
這個API是不斷發展的。
例子
> > >csv_sdf=火花。readStream。csv(tempfile。mkdtemp(),模式=sdf_schema)> > >csv_sdf。isStreaming真正的> > >csv_sdf。模式= =sdf_schema真正的