pyspark.pandas.read_parquet¶

pyspark.pandas。 read_parquet ( 路徑:str,列:可選(列表(str]]=沒有一個,index_col:可選(列表(str]]=沒有一個,pandas_metadata:bool=假,* *選項:任何 )→pyspark.pandas.frame.DataFrame¶

從文件路徑加載一個拚花對象,返回一個DataFrame。

參數

路徑字符串: 文件路徑
列列表,默認=沒有: 如果不是沒有,隻有這些列將從文件讀取。
index_col str和str列表,可選的,默認值:沒有: 表的索引列火花。
pandas_metadata bool,默認值是錯誤的: 如果這是真的,試著尊重如果大熊貓的拚花寫文件的元數據。
選項 dict: 所有其他選項直接傳遞到火花的數據源。

返回

DataFrame

另請參閱

DataFrame.to_parquet
DataFrame.read_table
DataFrame.read_delta
DataFrame.read_spark_io

例子

           > > >ps。範圍(1)。to_parquet(”% s/ read_spark_io data.parquet”%路徑)> > >ps。read_parquet(”% s/ read_spark_io data.parquet”%路徑,列=(“id”])id0 0
          

你可以保留指數往返如下。

           > > >ps。範圍(1)。to_parquet(”% s/ read_spark_io data.parquet”%路徑,index_col=“指數”)> > >ps。read_parquet(”% s/ read_spark_io data.parquet”%路徑,列=(“id”),index_col=“指數”)…id指數0 0
          

以前的

pyspark.pandas.DataFrame.to_delta

下一個

pyspark.pandas.DataFrame.to_parquet