pyspark.pandas.DataFrame.to_spark_io

DataFrame。 to_spark_io ( 路徑:可選(str]=沒有一個,格式:可選(str]=沒有一個,模式:str=“覆蓋”,partition_cols:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:OptionalPrimitiveType )→沒有

寫DataFrame火花數據源。DataFrame.spark.to_spark_io ()是一個別名DataFrame.to_spark_io ()

參數
路徑 字符串,可選

路徑數據源。

格式 字符串,可選

指定數據源格式的輸出。常見的有:

  • “δ”

  • “鋪”

  • “獸人”

  • json的

  • “csv”

模式 str{“追加”,“覆蓋”,“忽略”,“錯誤”,“errorifexists”},違約

“覆蓋”。指定當數據已經保存操作的行為。

  • “附加”:將新數據附加到現有數據。

  • “覆蓋”:覆蓋現有的數據。

  • “忽略”:默默地忽略這個操作如果數據已經存在。

  • “錯誤”或“errorifexists”:拋出一個異常如果數據已經存在。

partition_cols str和str列表,可選的

分區列的名字

index_col: str或str列表,可選的,默認值:沒有

列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。

選項 dict

所有其他選項直接傳遞到火花的數據源。

返回
沒有一個

例子

> > >df=psDataFrame(dict(日期=列表(pddate_range(“2012-1-1 12:00:00”,=3,頻率=“米”)),國家=(“KR”,“我們”,“摩根”),代碼=(1,2,3]),=(“日期”,“國家”,“代碼”])> > >df日期國家代碼0 2012-01-31 12:00:00 KR 11 2012-02-29 12:00:00我們22 2012-03-31 12:00:00 JP 3
> > >dfto_spark_io(路徑=% s/ to_spark_io foo.json”%路徑,格式=json的)