pyspark.pandas.read_csv

pyspark.pandas。 read_csv ( 路徑:str,9月:str=”、“,:聯盟(str, int,沒有)=“推斷”,的名字:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,usecols:聯盟(列表(int), (str),可調用的((str), bool),沒有一個)=沒有一個,擠壓:bool=,mangle_dupe_cols:bool=真正的,dtype:聯盟(str, numpy。dtype,pandas.core.dtypes.base.ExtensionDtype, Dict[str, Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype]], None]=沒有一個,nrows:可選(int]=沒有一個,parse_dates:bool=,quotechar:可選(str]=沒有一個,escapechar:可選(str]=沒有一個,評論:可選(str]=沒有一個,編碼:可選(str]=沒有一個,* *選項:任何 )→聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series]

CSV(逗號分隔)文件讀入DataFrame或係列。

參數
路徑 str

要讀取字符串存儲CSV文件的路徑。

9月 str,違約”、“

分隔符使用。非空字符串。

int,默認“推斷”

是否作為列名和數據的開始。默認行為是推斷列名:如果沒有名稱傳遞行為是相同的頭= 0名和列名推斷從文件的第一行,如果列名稱傳遞明確的行為是相同的頭=沒有。顯式地通過頭= 0能夠取代現有的名字

的名字 str類數組,或可選的

列表的列名稱使用。如果文件不包含標題行,那麼你應該顯式傳遞頭=沒有。本列表的副本將導致一個錯誤。如果一個字符串,它應該是一個DDL-formatted火花SQL字符串,這是首選避免模式推理更好的性能。

index_col: str或str列表,可選的,默認值:沒有

表的索引列火花。

usecols 類似或可調用,可選的

返回列的一個子集。如果類似,所有元素必須是位置(即整數指數到文檔列)或字符串對應的列名提供用戶名稱或推斷從文檔標題行(s)。如果調用,調用函數將被評估反對列名,返回名稱可調用的函數值真正的

擠壓 bool,默認的錯誤

如果解析數據隻包含一列然後返回一個係列。

mangle_dupe_cols bool,默認的真

重複的列將被指定為X0, X1,…‘XN’,而不是‘X’…‘X’。傳入錯誤將導致數據被覆蓋,如果有重複的名字列。目前隻真正的是被允許的。

dtype 類型名稱或dict列- >類型,默認沒有

數據類型數據或列。例如{a: np。float64, b: np.int32}使用str或對象一起合適的保護而不是解釋dtype na_values設置。

nrows int,默認沒有

從CSV文件讀取的行數。

parse_dates 布爾或整數列表名稱或列表或dict類型列表,默認

目前隻是被允許的。

quotechar str(長度1),可選的

字符用來表示一個引用項目的開始和結束。引用項目可以包括分隔符,它將被忽略。

escapechar str(1)長度,默認沒有

字符的字符串用於其他字符轉義。

評論:str,可選的

表示行不能被解析。

編碼:str,可選的

表明讀文件的編碼

選項 dict

所有其他選項直接傳遞到火花的數據源。

返回
DataFrame或係列

另請參閱

DataFrame.to_csv

寫DataFrame逗號分隔值(csv)文件。

例子

> > >psread_csv(“data.csv”)