pyspark.pandas.read_parquet

pyspark.pandas。 read_parquet ( 路徑:str,:可選(列表(str]]=沒有一個,index_col:可選(列表(str]]=沒有一個,pandas_metadata:bool=,* *選項:任何 )→pyspark.pandas.frame.DataFrame

從文件路徑加載一個拚花對象,返回一個DataFrame。

參數
路徑 字符串

文件路徑

列表,默認=沒有

如果不是沒有,隻有這些列將從文件讀取。

index_col str和str列表,可選的,默認值:沒有

表的索引列火花。

pandas_metadata bool,默認值是錯誤的

如果這是真的,試著尊重如果大熊貓的拚花寫文件的元數據。

選項 dict

所有其他選項直接傳遞到火花的數據源。

返回
DataFrame

另請參閱

DataFrame.to_parquet
DataFrame.read_table
DataFrame.read_delta
DataFrame.read_spark_io

例子

> > >ps範圍(1)to_parquet(% s/ read_spark_io data.parquet”%路徑)> > >psread_parquet(% s/ read_spark_io data.parquet”%路徑,=(“id”])id0 0

你可以保留指數往返如下。

> > >ps範圍(1)to_parquet(% s/ read_spark_io data.parquet”%路徑,index_col=“指數”)> > >psread_parquet(% s/ read_spark_io data.parquet”%路徑,=(“id”),index_col=“指數”)id指數0 0