pyspark.pandas.read_csv¶
-
pyspark.pandas。
read_csv
( 路徑:str,9月:str=”、“,頭:聯盟(str, int,沒有)=“推斷”,的名字:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,usecols:聯盟(列表(int), (str),可調用的((str), bool),沒有一個)=沒有一個,擠壓:bool=假,mangle_dupe_cols:bool=真正的,dtype:聯盟(str, numpy。dtype,pandas.core.dtypes.base.ExtensionDtype, Dict[str, Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype]], None]=沒有一個,nrows:可選(int]=沒有一個,parse_dates:bool=假,quotechar:可選(str]=沒有一個,escapechar:可選(str]=沒有一個,評論:可選(str]=沒有一個,編碼:可選(str]=沒有一個,* *選項:任何 )→聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series] ¶ -
CSV(逗號分隔)文件讀入DataFrame或係列。
- 參數
-
- 路徑 str
-
要讀取字符串存儲CSV文件的路徑。
- 9月 str,違約”、“
-
分隔符使用。非空字符串。
- 頭 int,默認“推斷”
-
是否作為列名和數據的開始。默認行為是推斷列名:如果沒有名稱傳遞行為是相同的頭= 0名和列名推斷從文件的第一行,如果列名稱傳遞明確的行為是相同的頭=沒有。顯式地通過頭= 0能夠取代現有的名字
- 的名字 str類數組,或可選的
-
列表的列名稱使用。如果文件不包含標題行,那麼你應該顯式傳遞頭=沒有。本列表的副本將導致一個錯誤。如果一個字符串,它應該是一個DDL-formatted火花SQL字符串,這是首選避免模式推理更好的性能。
- index_col: str或str列表,可選的,默認值:沒有
-
表的索引列火花。
- usecols 類似或可調用,可選的
-
返回列的一個子集。如果類似,所有元素必須是位置(即整數指數到文檔列)或字符串對應的列名提供用戶名稱或推斷從文檔標題行(s)。如果調用,調用函數將被評估反對列名,返回名稱可調用的函數值真正的。
- 擠壓 bool,默認的錯誤
-
如果解析數據隻包含一列然後返回一個係列。
- mangle_dupe_cols bool,默認的真
-
重複的列將被指定為X0, X1,…‘XN’,而不是‘X’…‘X’。傳入錯誤將導致數據被覆蓋,如果有重複的名字列。目前隻真正的是被允許的。
- dtype 類型名稱或dict列- >類型,默認沒有
-
數據類型數據或列。例如{a: np。float64, b: np.int32}使用str或對象一起合適的保護而不是解釋dtype na_values設置。
- nrows int,默認沒有
-
從CSV文件讀取的行數。
- parse_dates 布爾或整數列表名稱或列表或dict類型列表,默認假。
-
目前隻假是被允許的。
- quotechar str(長度1),可選的
-
字符用來表示一個引用項目的開始和結束。引用項目可以包括分隔符,它將被忽略。
- escapechar str(1)長度,默認沒有
-
字符的字符串用於其他字符轉義。
- 評論:str,可選的
-
表示行不能被解析。
- 編碼:str,可選的
-
表明讀文件的編碼
- 選項 dict
-
所有其他選項直接傳遞到火花的數據源。
- 返回
-
- DataFrame或係列
另請參閱
-
DataFrame.to_csv
-
寫DataFrame逗號分隔值(csv)文件。
例子
> > >ps。read_csv(“data.csv”)