pyspark.pandas.DataFrame.to_json

DataFrame。 to_json ( 路徑:可選(str]=沒有一個,壓縮:str=未壓縮的,num_files:可選(int]=沒有一個,模式:str=' w ',東方:str=“記錄”,:bool=真正的,partition_cols:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→可選(str]

將對象轉換為一個JSON字符串。

請注意

pandas-on-Sparkto_json寫文件路徑或URI。不像熊貓,pandas-on-Spark尊重HDFS的財產如“fs.default.name”。

請注意

pandas-on-Spark寫道JSON文件到目錄,路徑,寫多個部分-…當文件目錄路徑都是確定的。這種行為是繼承Apache火花。文件的數量可以控製的num_files

請注意

不同於大熊貓JSON格式輸出。它總是使用東方=“記錄”其輸出。這種行為可能會改變在不久的將來。

請注意

ignoreNullFields關鍵字參數真正的省略沒有一個當編寫JSON對象的值。它隻有當路徑提供。

注意南的,沒有將轉換為零和datetime對象將轉換為UNIX時間戳。

參數
路徑 字符串,可選

文件路徑。如果不指定,返回的結果是作為一個字符串。

bool,默認的真

如果“東方”是“記錄”寫出行分隔的json格式。將拋出ValueError如果不正確的“東方”,因為別人不喜歡列表。現在應該總是正確的。

東方 str,默認“記錄”

現在應該總是“記錄”。

壓縮 {gzip, bz2的獲取,xz,沒有}

代表一個字符串壓縮使用在輸出文件中,隻使用第一個參數是一個文件名。默認情況下,壓縮文件名的推斷。

num_files 編寫的文件的數量路徑目錄時

這是一個路徑。

模式 str

Python編寫模式,默認的“w”。

請注意

模式可以接受字符串引發寫作模式。如“追加”、“覆蓋”,“忽略”,“錯誤”,“errorifexists”。

  • “附加”(相當於“a”):將新數據附加到現有數據。

  • “覆蓋”(相當於“w”):覆蓋現有的數據。

  • “忽略”:默默地忽略這個操作如果數據已經存在。

  • “錯誤”或“errorifexists”:拋出一個異常如果數據已經存在。

partition_cols str或列表的str,可選的,默認沒有

分區列的名字

index_col: str或str列表,可選的,默認值:沒有

列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。

選項:關鍵字參數特定於PySpark附加選項。

它是特定於PySpark JSON選項。檢查選項PySpark的API文檔spark.write.json (…)。它有一個更高的優先級和覆蓋所有其他選項。這個參數隻能當路徑都是確定的。

返回
str或沒有

例子

> > >df=psDataFrame([[“一個”,“b”),(“c”,' d ']],=(“上校1”,《col 2》])> > >dfto_json()“{”坳1”:“一”,“col 2”:“b”},{“1”上校:“c”,“col 2”:“d”}]”
> > >df(“上校1”]to_json()“[{“坳1”:“a”},{“坳1”:“c”}]”
> > >dfto_json(路徑=r% s/ to_json foo.json”%路徑,num_files=1)> > >psread_json(路徑=r% s/ to_json foo.json”%路徑)sort_values(通過=“上校1”)坳1 col 20 b1 c d
> > >df(“上校1”]to_json(路徑=r% s/ to_json foo.json”%路徑,num_files=1,index_col=“指數”)> > >psread_json(路徑=r% s/ to_json foo.json”%路徑,index_col=“指數”)sort_values(通過=“上校1”)坳1指數0一個1 c