pyspark.pandas.read_csv¶

pyspark.pandas。 read_csv ( 路徑:str,9月:str=”、“,頭:聯盟(str, int,沒有)=“推斷”,的名字:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,usecols:聯盟(列表(int), (str),可調用的((str), bool),沒有一個)=沒有一個,擠壓:bool=假,mangle_dupe_cols:bool=真正的,dtype:聯盟(str, numpy。dtype,pandas.core.dtypes.base.ExtensionDtype, Dict[str, Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype]], None]=沒有一個,nrows:可選(int]=沒有一個,parse_dates:bool=假,quotechar:可選(str]=沒有一個,escapechar:可選(str]=沒有一個,評論:可選(str]=沒有一個,編碼:可選(str]=沒有一個,* *選項:任何 )→聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series] ¶

CSV(逗號分隔)文件讀入DataFrame或係列。

參數

路徑 str: 要讀取字符串存儲CSV文件的路徑。
9月 str,違約”、“: 分隔符使用。非空字符串。
頭 int,默認“推斷”: 是否作為列名和數據的開始。默認行為是推斷列名:如果沒有名稱傳遞行為是相同的頭= 0名和列名推斷從文件的第一行,如果列名稱傳遞明確的行為是相同的頭=沒有。顯式地通過頭= 0能夠取代現有的名字
的名字 str類數組,或可選的: 列表的列名稱使用。如果文件不包含標題行,那麼你應該顯式傳遞頭=沒有。本列表的副本將導致一個錯誤。如果一個字符串,它應該是一個DDL-formatted火花SQL字符串,這是首選避免模式推理更好的性能。
index_col: str或str列表,可選的,默認值:沒有: 表的索引列火花。
usecols 類似或可調用,可選的: 返回列的一個子集。如果類似,所有元素必須是位置(即整數指數到文檔列)或字符串對應的列名提供用戶名稱或推斷從文檔標題行(s)。如果調用,調用函數將被評估反對列名,返回名稱可調用的函數值真正的。
擠壓 bool,默認的錯誤: 如果解析數據隻包含一列然後返回一個係列。
mangle_dupe_cols bool,默認的真: 重複的列將被指定為X0, X1,…‘XN’,而不是‘X’…‘X’。傳入錯誤將導致數據被覆蓋,如果有重複的名字列。目前隻真正的是被允許的。
dtype 類型名稱或dict列- >類型,默認沒有: 數據類型數據或列。例如{a: np。float64, b: np.int32}使用str或對象一起合適的保護而不是解釋dtype na_values設置。
nrows int,默認沒有: 從CSV文件讀取的行數。
parse_dates 布爾或整數列表名稱或列表或dict類型列表,默認假。: 目前隻假是被允許的。
quotechar str(長度1),可選的: 字符用來表示一個引用項目的開始和結束。引用項目可以包括分隔符,它將被忽略。
escapechar str(1)長度,默認沒有: 字符的字符串用於其他字符轉義。
評論:str,可選的: 表示行不能被解析。
編碼:str,可選的: 表明讀文件的編碼
選項 dict: 所有其他選項直接傳遞到火花的數據源。

返回

DataFrame或係列

另請參閱

DataFrame.to_csv: 寫DataFrame逗號分隔值(csv)文件。

例子

           > > >ps。read_csv(“data.csv”)
          

以前的

pyspark.pandas.DataFrame.to_spark_io

下一個

pyspark.pandas.DataFrame.to_csv