pyspark.pandas.DataFrame.to_delta

DataFrame。 to_delta ( 路徑:str,模式:str=' w ',partition_cols:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:OptionalPrimitiveType )→沒有

寫DataFrame三角洲湖表。

參數
路徑 str,要求

路徑寫入。

模式 str

Python編寫模式,默認的“w”。

請注意

模式可以接受字符串引發寫作模式。如“追加”、“覆蓋”,“忽略”,“錯誤”,“errorifexists”。

  • “附加”(相當於“a”):將新數據附加到現有數據。

  • “覆蓋”(相當於“w”):覆蓋現有的數據。

  • “忽略”:默默地忽略這個操作如果數據已經存在。

  • “錯誤”或“errorifexists”:拋出一個異常如果數據已經存在。

partition_cols str或列表的str,可選的,默認沒有

分區列的名字

index_col: str或str列表,可選的,默認值:沒有

列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。

選項 dict

所有其他選項通過直接進入三角洲湖。

例子

> > >df=psDataFrame(dict(日期=列表(pddate_range(“2012-1-1 12:00:00”,=3,頻率=“米”)),國家=(“KR”,“我們”,“摩根”),代碼=(1,2,3]),=(“日期”,“國家”,“代碼”])> > >df日期國家代碼0 2012-01-31 12:00:00 KR 11 2012-02-29 12:00:00我們22 2012-03-31 12:00:00 JP 3

創建一個新的三角洲湖表,分區一列:

> > >dfto_delta(% s/ to_delta / foo”%路徑,partition_cols=“日期”)

分區由兩列:

> > >dfto_delta(% s/ to_delta /酒吧'%路徑,partition_cols=(“日期”,“國家”])

覆蓋現有表的分區,使用“replaceWhere”能力三角洲:

> > >dfto_delta(% s/ to_delta /酒吧'%路徑,模式=“覆蓋”,replaceWhere=“日期> =“2012-01-01””)