pyspark.pandas.Series.to_json¶
-
係列。
to_json
( 路徑:可選(str]=沒有一個,壓縮:str=未壓縮的,num_files:可選(int]=沒有一個,模式:str=' w ',東方:str=“記錄”,行:bool=真正的,partition_cols:聯盟(str,列表(str),沒有一個)=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→可選(str] ¶ -
將對象轉換為一個JSON字符串。
請注意
pandas-on-Sparkto_json寫文件路徑或URI。不像熊貓,pandas-on-Spark尊重HDFS的財產如“fs.default.name”。
請注意
pandas-on-Spark寫道JSON文件到目錄,路徑,寫多個部分-…當文件目錄路徑都是確定的。這種行為是繼承Apache火花。文件的數量可以控製的num_files。
請注意
不同於大熊貓JSON格式輸出。它總是使用東方=“記錄”其輸出。這種行為可能會改變在不久的將來。
請注意
集ignoreNullFields關鍵字參數真正的省略沒有一個或南當編寫JSON對象的值。它隻有當路徑提供。
注意南的,沒有將轉換為零和datetime對象將轉換為UNIX時間戳。
- 參數
-
- 路徑 字符串,可選
-
文件路徑。如果不指定,返回的結果是作為一個字符串。
- 行 bool,默認的真
-
如果“東方”是“記錄”寫出行分隔的json格式。將拋出ValueError如果不正確的“東方”,因為別人不喜歡列表。現在應該總是正確的。
- 東方 str,默認“記錄”
-
現在應該總是“記錄”。
- 壓縮 {gzip, bz2的獲取,xz,沒有}
-
代表一個字符串壓縮使用在輸出文件中,隻使用第一個參數是一個文件名。默認情況下,壓縮文件名的推斷。
- num_files 編寫的文件的數量路徑目錄時
-
這是一個路徑。
- 模式 str
-
Python編寫模式,默認的“w”。
請注意
模式可以接受字符串引發寫作模式。如“追加”、“覆蓋”,“忽略”,“錯誤”,“errorifexists”。
“附加”(相當於“a”):將新數據附加到現有數據。
“覆蓋”(相當於“w”):覆蓋現有的數據。
“忽略”:默默地忽略這個操作如果數據已經存在。
“錯誤”或“errorifexists”:拋出一個異常如果數據已經存在。
- partition_cols str或列表的str,可選的,默認沒有
-
分區列的名字
- index_col: str或str列表,可選的,默認值:沒有
-
列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。
- 選項:關鍵字參數特定於PySpark附加選項。
-
它是特定於PySpark JSON選項。檢查選項PySpark的API文檔spark.write.json (…)。它有一個更高的優先級和覆蓋所有其他選項。這個參數隻能當路徑都是確定的。
- 返回
-
- str或沒有
例子
> > >df=ps。DataFrame([[“一個”,“b”),(“c”,' d ']],…列=(“上校1”,《col 2》])> > >df。to_json()“{”坳1”:“一”,“col 2”:“b”},{“1”上校:“c”,“col 2”:“d”}]”
> > >df(“上校1”]。to_json()“[{“坳1”:“a”},{“坳1”:“c”}]”
> > >df。to_json(路徑=r”% s/ to_json foo.json”%路徑,num_files=1)> > >ps。read_json(…路徑=r”% s/ to_json foo.json”%路徑…)。sort_values(通過=“上校1”)坳1 col 20 b1 c d
> > >df(“上校1”]。to_json(路徑=r”% s/ to_json foo.json”%路徑,num_files=1,index_col=“指數”)> > >ps。read_json(…路徑=r”% s/ to_json foo.json”%路徑,index_col=“指數”…)。sort_values(通過=“上校1”)坳1指數0一個1 c