pyspark.pandas.DataFrame.to_parquet¶
-
DataFrame。
to_parquet
( 路徑:str,模式:str=' w ',partition_cols:聯盟(str,列表(str),沒有一個)=沒有一個,壓縮:可選(str]=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→沒有¶ -
寫DataFrame拚花文件或目錄。
- 參數
-
- 路徑 str,要求
-
路徑寫入。
- 模式 str
-
Python編寫模式,默認的“w”。
請注意
模式可以接受字符串引發寫作模式。如“追加”、“覆蓋”,“忽略”,“錯誤”,“errorifexists”。
“附加”(相當於“a”):將新數據附加到現有數據。
“覆蓋”(相當於“w”):覆蓋現有的數據。
“忽略”:默默地忽略這個操作如果數據已經存在。
“錯誤”或“errorifexists”:拋出一個異常如果數據已經存在。
- partition_cols str或列表的str,可選的,默認沒有
-
分區列的名字
- 壓縮 str{“沒有”,“壓縮”,“時髦的”,‘gzip’,‘lzo’,‘brotli’,‘lz4’,‘zstd}
-
壓縮編解碼器使用在保存文件。如果沒有設置,它使用指定的值spark.sql.parquet.compression.codec。
- index_col: str或str列表,可選的,默認值:沒有
-
列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。
- 選項 dict
-
所有其他選項直接傳遞到火花的數據源。
例子
> > >df=ps。DataFrame(dict(…日期=列表(pd。date_range(“2012-1-1 12:00:00”,期=3,頻率=“米”)),…國家=(“KR”,“我們”,“摩根”),…代碼=(1,2,3]),列=(“日期”,“國家”,“代碼”])> > >df日期國家代碼0 2012-01-31 12:00:00 KR 11 2012-02-29 12:00:00我們22 2012-03-31 12:00:00 JP 3
> > >df。to_parquet(”% s/ to_parquet foo.parquet”%路徑,partition_cols=“日期”)
> > >df。to_parquet(…”% s/ to_parquet foo.parquet”%路徑,…模式=“覆蓋”,…partition_cols=(“日期”,“國家”])