pyspark.pandas.DataFrame.to_csv¶

DataFrame。 to_csv ( 路徑:可選(str]=沒有一個,9月:str=”、“,na_rep:str=”,列:可選(列表(聯盟(任何元組[,…]]]]=沒有一個,頭:bool=真正的,quotechar:str=“””,date_format:可選(str]=沒有一個,escapechar:可選(str]=沒有一個,num_files:可選(int]=沒有一個,模式:str=' w ',partition_cols:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→可選(str] ¶

對象寫入一個逗號分隔值(csv)文件。

請注意

pandas-on-Sparkto_csv寫文件路徑或URI。不像熊貓,pandas-on-Spark尊重HDFS的財產如“fs.default.name”。

請注意

pandas-on-Spark寫道CSV文件目錄,路徑,寫多個部分-…當文件目錄路徑都是確定的。這種行為是繼承Apache火花。文件的數量可以控製的num_files。

參數

路徑 str,默認沒有

文件路徑。如果沒有提供的結果是作為字符串返回。

9月 str,違約”、“

長度為1的字符串。字段分隔符的輸出文件。

na_rep str,默認”

缺失的數據表示。

列序列,可選

列寫。

頭 bool或str列表,默認正確

寫出列名。如果一個字符串列表,它被認為是列名稱的別名。

quotechar str,默認的“

長度為1的字符串。字符用於引用字段。

date_format str,默認沒有

datetime對象的格式字符串。

escapechar str,默認沒有

長度為1的字符串。字符用來逃避9月和quotechar在適當的時候。

num_files 編寫的文件的數量路徑目錄時

這是一個路徑。

模式 str

Python編寫模式,默認的“w”。

請注意

模式可以接受字符串引發寫作模式。如“追加”、“覆蓋”,“忽略”,“錯誤”,“errorifexists”。

“附加”(相當於“a”):將新數據附加到現有數據。
“覆蓋”(相當於“w”):覆蓋現有的數據。
“忽略”:默默地忽略這個操作如果數據已經存在。
“錯誤”或“errorifexists”:拋出一個異常如果數據已經存在。

partition_cols str或列表的str,可選的,默認沒有

分區列的名字

index_col: str或str列表,可選的,默認值:沒有

列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。

選項:關鍵字參數特定於PySpark附加選項。

這個特定於PySpark kwargs CSV選項。檢查選項PySpark spark.write.csv的API文檔(…)。它有更高的優先級和覆蓋所有其他選項。這個參數隻能當路徑都是確定的。

返回

str或沒有

另請參閱

read_csv
DataFrame.to_delta
DataFrame.to_table
DataFrame.to_parquet
DataFrame.to_spark_io

例子

           > > >df=ps。DataFrame(dict(…日期=列表(pd。date_range(“2012-1-1 12:00:00”,期=3,頻率=“米”)),…國家=(“KR”,“我們”,“摩根”),…代碼=(1,2,3]),列=(“日期”,“國家”,“代碼”])> > >df。sort_values(通過=“日期”)日期國家代碼…2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南1…2012年- - - - - -02- - - - - -29日12:00:00我們2…2012年- - - - - -03- - - - - -31日12:00:00摩根大通3
          

           > > >打印(df。to_csv())日期、國家代碼2012-01-31 12:00:00 KR 1美國2012-02-29 12:00:00 22012-03-31 12:00:00 JP 3
          

           > > >df。cummax()。to_csv(路徑=r”% s/ to_csv foo.csv”%路徑,num_files=1)> > >ps。read_csv(…路徑=r”% s/ to_csv foo.csv”%路徑…)。sort_values(通過=“日期”)日期國家代碼…2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南1…2012年- - - - - -02- - - - - -29日12:00:00我們2…2012年- - - - - -03- - - - - -31日12:00:00我們3
          

係列,

           > > >打印(df。日期。to_csv())日期2012-01-31 12:00:002012-02-29 12:00:002012-03-31 12:00:00
          

           > > >df。日期。to_csv(路徑=r”% s/ to_csv foo.csv”%路徑,num_files=1)> > >ps。read_csv(…路徑=r”% s/ to_csv foo.csv”%路徑…)。sort_values(通過=“日期”)日期…2012年- - - - - -01- - - - - -31日12:00:00…2012年- - - - - -02- - - - - -29日12:00:00…2012年- - - - - -03- - - - - -31日12:00:00
          

你可以保留指數往返如下。

           > > >df。set_index(“國家”,附加=真正的,原地=真正的)> > >df。日期。to_csv(…路徑=r”% s/ to_csv bar.csv”%路徑,…num_files=1,…index_col=(“index1”,“index2”])> > >ps。read_csv(…路徑=r”% s/ to_csv bar.csv”%路徑,index_col=(“index1”,“index2”]…)。sort_values(通過=“日期”)日期index1 index2……2012年- - - - - -01- - - - - -31日12:00:00……2012年- - - - - -02- - - - - -29日12:00:00……2012年- - - - - -03- - - - - -31日12:00:00
          

以前的

pyspark.pandas.read_csv

下一個

pyspark.pandas.read_clipboard