pyspark.pandas.DataFrame.to_csv¶
-
DataFrame。
to_csv
( 路徑:可選(str]=沒有一個,9月:str=”、“,na_rep:str=”,列:可選(列表(聯盟(任何元組[,…]]]]=沒有一個,頭:bool=真正的,quotechar:str=“””,date_format:可選(str]=沒有一個,escapechar:可選(str]=沒有一個,num_files:可選(int]=沒有一個,模式:str=' w ',partition_cols:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→可選(str] ¶ -
對象寫入一個逗號分隔值(csv)文件。
請注意
pandas-on-Sparkto_csv寫文件路徑或URI。不像熊貓,pandas-on-Spark尊重HDFS的財產如“fs.default.name”。
請注意
pandas-on-Spark寫道CSV文件目錄,路徑,寫多個部分-…當文件目錄路徑都是確定的。這種行為是繼承Apache火花。文件的數量可以控製的num_files。
- 參數
-
- 路徑 str,默認沒有
-
文件路徑。如果沒有提供的結果是作為字符串返回。
- 9月 str,違約”、“
-
長度為1的字符串。字段分隔符的輸出文件。
- na_rep str,默認”
-
缺失的數據表示。
- 列 序列,可選
-
列寫。
- 頭 bool或str列表,默認正確
-
寫出列名。如果一個字符串列表,它被認為是列名稱的別名。
- quotechar str,默認的“
-
長度為1的字符串。字符用於引用字段。
- date_format str,默認沒有
-
datetime對象的格式字符串。
- escapechar str,默認沒有
-
長度為1的字符串。字符用來逃避9月和quotechar在適當的時候。
- num_files 編寫的文件的數量路徑目錄時
-
這是一個路徑。
- 模式 str
-
Python編寫模式,默認的“w”。
請注意
模式可以接受字符串引發寫作模式。如“追加”、“覆蓋”,“忽略”,“錯誤”,“errorifexists”。
“附加”(相當於“a”):將新數據附加到現有數據。
“覆蓋”(相當於“w”):覆蓋現有的數據。
“忽略”:默默地忽略這個操作如果數據已經存在。
“錯誤”或“errorifexists”:拋出一個異常如果數據已經存在。
- partition_cols str或列表的str,可選的,默認沒有
-
分區列的名字
- index_col: str或str列表,可選的,默認值:沒有
-
列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。
- 選項:關鍵字參數特定於PySpark附加選項。
-
這個特定於PySpark kwargs CSV選項。檢查選項PySpark spark.write.csv的API文檔(…)。它有更高的優先級和覆蓋所有其他選項。這個參數隻能當路徑都是確定的。
- 返回
-
- str或沒有
例子
> > >df=ps。DataFrame(dict(…日期=列表(pd。date_range(“2012-1-1 12:00:00”,期=3,頻率=“米”)),…國家=(“KR”,“我們”,“摩根”),…代碼=(1,2,3]),列=(“日期”,“國家”,“代碼”])> > >df。sort_values(通過=“日期”)日期國家代碼…2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南1…2012年- - - - - -02- - - - - -29日12:00:00我們2…2012年- - - - - -03- - - - - -31日12:00:00摩根大通3
> > >打印(df。to_csv())日期、國家代碼2012-01-31 12:00:00 KR 1美國2012-02-29 12:00:00 22012-03-31 12:00:00 JP 3
> > >df。cummax()。to_csv(路徑=r”% s/ to_csv foo.csv”%路徑,num_files=1)> > >ps。read_csv(…路徑=r”% s/ to_csv foo.csv”%路徑…)。sort_values(通過=“日期”)日期國家代碼…2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南1…2012年- - - - - -02- - - - - -29日12:00:00我們2…2012年- - - - - -03- - - - - -31日12:00:00我們3
係列,
> > >打印(df。日期。to_csv())日期2012-01-31 12:00:002012-02-29 12:00:002012-03-31 12:00:00
> > >df。日期。to_csv(路徑=r”% s/ to_csv foo.csv”%路徑,num_files=1)> > >ps。read_csv(…路徑=r”% s/ to_csv foo.csv”%路徑…)。sort_values(通過=“日期”)日期…2012年- - - - - -01- - - - - -31日12:00:00…2012年- - - - - -02- - - - - -29日12:00:00…2012年- - - - - -03- - - - - -31日12:00:00
你可以保留指數往返如下。
> > >df。set_index(“國家”,附加=真正的,原地=真正的)> > >df。日期。to_csv(…路徑=r”% s/ to_csv bar.csv”%路徑,…num_files=1,…index_col=(“index1”,“index2”])> > >ps。read_csv(…路徑=r”% s/ to_csv bar.csv”%路徑,index_col=(“index1”,“index2”]…)。sort_values(通過=“日期”)日期index1 index2……2012年- - - - - -01- - - - - -31日12:00:00……2012年- - - - - -02- - - - - -29日12:00:00……2012年- - - - - -03- - - - - -31日12:00:00