pyspark.pandas.read_spark_io¶

pyspark.pandas。 read_spark_io ( 路徑:可選(str]=沒有一個,格式:可選(str]=沒有一個,模式:聯盟(str,StructType]=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→pyspark.pandas.frame.DataFrame¶

加載一個DataFrame火花數據源。

參數

路徑字符串,可選

路徑數據源。

格式字符串,可選

指定數據源格式的輸出。常見的有:

“δ”
“鋪”
“獸人”
json的
“csv”

模式字符串或StructType,可選的

輸入模式。如果沒有,火花試圖推斷出自動模式。模式可以是一個火花StructType或DDL-formatted字符串col0 INT, col1翻倍。

index_col str和str列表,可選的,默認值:沒有

表的索引列火花。

選項 dict

所有其他選項直接傳遞到火花的數據源。

另請參閱

DataFrame.to_spark_io
DataFrame.read_table
DataFrame.read_delta
DataFrame.read_parquet

例子

           > > >ps。範圍(1)。to_spark_io(”% s/ read_spark_io data.parquet”%路徑)> > >ps。read_spark_io(…”% s/ read_spark_io data.parquet”%路徑,格式=“鋪”,模式=“id長”)id0 0
          

           > > >ps。範圍(10,15,num_partitions=1)。to_spark_io(”% s/ read_spark_io data.json”%路徑,…格式=json的,lineSep=“_”)> > >ps。read_spark_io(…”% s/ read_spark_io data.json”%路徑,格式=json的,模式=“id長”,lineSep=“_”)id0 101 112 123 134 14
          

你可以保留指數往返如下。

           > > >ps。範圍(10,15,num_partitions=1)。to_spark_io(”% s/ read_spark_io data.orc”%路徑,…格式=“獸人”,index_col=“指數”)> > >ps。read_spark_io(…路徑=r”% s/ read_spark_io data.orc”%路徑,格式=“獸人”,index_col=“指數”)…id指數0 101 112 123 134 14
          

以前的

pyspark.pandas.DataFrame.to_orc

下一個

pyspark.pandas.DataFrame.to_spark_io