pyspark.pandas.DataFrame.to_csv

DataFrame。 to_csv ( 路徑:可選(str]=沒有一個,9月:str=”、“,na_rep:str=,:可選(列表(聯盟(任何元組[,…]]]]=沒有一個,:bool=真正的,quotechar:str=“””,date_format:可選(str]=沒有一個,escapechar:可選(str]=沒有一個,num_files:可選(int]=沒有一個,模式:str=' w ',partition_cols:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→可選(str]

對象寫入一個逗號分隔值(csv)文件。

請注意

pandas-on-Sparkto_csv寫文件路徑或URI。不像熊貓,pandas-on-Spark尊重HDFS的財產如“fs.default.name”。

請注意

pandas-on-Spark寫道CSV文件目錄,路徑,寫多個部分-…當文件目錄路徑都是確定的。這種行為是繼承Apache火花。文件的數量可以控製的num_files

參數
路徑 str,默認沒有

文件路徑。如果沒有提供的結果是作為字符串返回。

9月 str,違約”、“

長度為1的字符串。字段分隔符的輸出文件。

na_rep str,默認”

缺失的數據表示。

序列,可選

列寫。

bool或str列表,默認正確

寫出列名。如果一個字符串列表,它被認為是列名稱的別名。

quotechar str,默認的“

長度為1的字符串。字符用於引用字段。

date_format str,默認沒有

datetime對象的格式字符串。

escapechar str,默認沒有

長度為1的字符串。字符用來逃避9月quotechar在適當的時候。

num_files 編寫的文件的數量路徑目錄時

這是一個路徑。

模式 str

Python編寫模式,默認的“w”。

請注意

模式可以接受字符串引發寫作模式。如“追加”、“覆蓋”,“忽略”,“錯誤”,“errorifexists”。

  • “附加”(相當於“a”):將新數據附加到現有數據。

  • “覆蓋”(相當於“w”):覆蓋現有的數據。

  • “忽略”:默默地忽略這個操作如果數據已經存在。

  • “錯誤”或“errorifexists”:拋出一個異常如果數據已經存在。

partition_cols str或列表的str,可選的,默認沒有

分區列的名字

index_col: str或str列表,可選的,默認值:沒有

列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。

選項:關鍵字參數特定於PySpark附加選項。

這個特定於PySpark kwargs CSV選項。檢查選項PySpark spark.write.csv的API文檔(…)。它有更高的優先級和覆蓋所有其他選項。這個參數隻能當路徑都是確定的。

返回
str或沒有

例子

> > >df=psDataFrame(dict(日期=列表(pddate_range(“2012-1-1 12:00:00”,=3,頻率=“米”)),國家=(“KR”,“我們”,“摩根”),代碼=(1,2,3]),=(“日期”,“國家”,“代碼”])> > >dfsort_values(通過=“日期”)日期國家代碼2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南12012年- - - - - -02- - - - - -29日12:00:00我們22012年- - - - - -03- - - - - -31日12:00:00摩根大通3
> > >打印(dfto_csv())日期、國家代碼2012-01-31 12:00:00 KR 1美國2012-02-29 12:00:00 22012-03-31 12:00:00 JP 3
> > >dfcummax()to_csv(路徑=r% s/ to_csv foo.csv”%路徑,num_files=1)> > >psread_csv(路徑=r% s/ to_csv foo.csv”%路徑)sort_values(通過=“日期”)日期國家代碼2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南12012年- - - - - -02- - - - - -29日12:00:00我們22012年- - - - - -03- - - - - -31日12:00:00我們3

係列,

> > >打印(df日期to_csv())日期2012-01-31 12:00:002012-02-29 12:00:002012-03-31 12:00:00
> > >df日期to_csv(路徑=r% s/ to_csv foo.csv”%路徑,num_files=1)> > >psread_csv(路徑=r% s/ to_csv foo.csv”%路徑)sort_values(通過=“日期”)日期2012年- - - - - -01- - - - - -31日12:00:002012年- - - - - -02- - - - - -29日12:00:002012年- - - - - -03- - - - - -31日12:00:00

你可以保留指數往返如下。

> > >dfset_index(“國家”,附加=真正的,原地=真正的)> > >df日期to_csv(路徑=r% s/ to_csv bar.csv”%路徑,num_files=1,index_col=(“index1”,“index2”])> > >psread_csv(路徑=r% s/ to_csv bar.csv”%路徑,index_col=(“index1”,“index2”])sort_values(通過=“日期”)日期index1 index22012年- - - - - -01- - - - - -31日12:00:002012年- - - - - -02- - - - - -29日12:00:002012年- - - - - -03- - - - - -31日12:00:00