pyspark.sql.DataFrameReader.csv¶
-
DataFrameReader。
csv
( 路徑:聯盟[str,列表[str]],模式:(pyspark.sql.types聯盟。StructType, str, None]=沒有一個,9月:可選[str]=沒有一個,編碼:可選[str]=沒有一個,報價:可選[str]=沒有一個,逃避:可選[str]=沒有一個,評論:可選[str]=沒有一個,頭:Union[bool, str, None]=沒有一個,inferSchema:Union[bool, str, None]=沒有一個,ignoreLeadingWhiteSpace:Union[bool, str, None]=沒有一個,ignoreTrailingWhiteSpace:Union[bool, str, None]=沒有一個,nullValue:可選[str]=沒有一個,nanValue:可選[str]=沒有一個,positiveInf:可選[str]=沒有一個,negativeInf:可選[str]=沒有一個,dateFormat:可選[str]=沒有一個,timestampFormat:可選[str]=沒有一個,maxColumns:Union[str, int, None]=沒有一個,maxCharsPerColumn:Union[str, int, None]=沒有一個,maxMalformedLogPerPartition:Union[str, int, None]=沒有一個,模式:可選[str]=沒有一個,columnNameOfCorruptRecord:可選[str]=沒有一個,多行:Union[bool, str, None]=沒有一個,charToEscapeQuoteEscaping:可選[str]=沒有一個,samplingRatio:Union[str, float, None]=沒有一個,enforceSchema:Union[bool, str, None]=沒有一個,emptyValue:可選[str]=沒有一個,語言環境:可選[str]=沒有一個,lineSep:可選[str]=沒有一個,pathGlobFilter:Union[bool, str, None]=沒有一個,recursiveFileLookup:Union[bool, str, None]=沒有一個,modifiedBefore:Union[bool, str, None]=沒有一個,modifiedAfter:Union[bool, str, None]=沒有一個,unescapedQuoteHandling:可選[str]=沒有一個 )→DataFrame¶ -
加載CSV文件並將結果返回為
DataFrame
.如果,此函數將遍曆輸入一次以確定輸入模式
inferSchema
啟用。為了避免一次遍曆整個數據,請禁用inferSchema
選項或使用顯式地指定模式模式
.- 參數
-
- 路徑 STR或list
-
字符串,或字符串列表,用於輸入路徑,或存儲CSV行的字符串的RDD。
-
模式
pyspark.sql.types.StructType
或者str,可選 -
一個可選的
pyspark.sql.types.StructType
用於輸入模式或ddl格式的字符串(例如col0INT,col1雙
).
- 其他參數
-
- 額外的選項
-
有關其他選項,請參閱數據源選項在你使用的版本中。
例子
>>>df=火花.讀.csv(“python / test_support / sql / ages.csv”)>>>df.dtypes[('_c0', 'string'), ('_c1', 'string')]>>>抽樣=sc.文本文件(“python / test_support / sql / ages.csv”)>>>df2=火花.讀.csv(抽樣)>>>df2.dtypes[('_c0', 'string'), ('_c1', 'string')]