pyspark.pandas.read_spark_io

pyspark.pandas。 read_spark_io ( 路徑:可選(str]=沒有一個,格式:可選(str]=沒有一個,模式:聯盟(str,StructType]=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→pyspark.pandas.frame.DataFrame

加載一個DataFrame火花數據源。

參數
路徑 字符串,可選

路徑數據源。

格式 字符串,可選

指定數據源格式的輸出。常見的有:

  • “δ”

  • “鋪”

  • “獸人”

  • json的

  • “csv”

模式 字符串或StructType,可選的

輸入模式。如果沒有,火花試圖推斷出自動模式。模式可以是一個火花StructType或DDL-formatted字符串col0 INT, col1翻倍

index_col str和str列表,可選的,默認值:沒有

表的索引列火花。

選項 dict

所有其他選項直接傳遞到火花的數據源。

另請參閱

DataFrame.to_spark_io
DataFrame.read_table
DataFrame.read_delta
DataFrame.read_parquet

例子

> > >ps範圍(1)to_spark_io(% s/ read_spark_io data.parquet”%路徑)> > >psread_spark_io(% s/ read_spark_io data.parquet”%路徑,格式=“鋪”,模式=“id長”)id0 0
> > >ps範圍(10,15,num_partitions=1)to_spark_io(% s/ read_spark_io data.json”%路徑,格式=json的,lineSep=“_”)> > >psread_spark_io(% s/ read_spark_io data.json”%路徑,格式=json的,模式=“id長”,lineSep=“_”)id0 101 112 123 134 14

你可以保留指數往返如下。

> > >ps範圍(10,15,num_partitions=1)to_spark_io(% s/ read_spark_io data.orc”%路徑,格式=“獸人”,index_col=“指數”)> > >psread_spark_io(路徑=r% s/ read_spark_io data.orc”%路徑,格式=“獸人”,index_col=“指數”)id指數0 101 112 123 134 14