pyspark.pandas.read_spark_io¶
-
pyspark.pandas。
read_spark_io
( 路徑:可選(str]=沒有一個,格式:可選(str]=沒有一個,模式:聯盟(str,StructType]=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→pyspark.pandas.frame.DataFrame¶ -
加載一個DataFrame火花數據源。
- 參數
-
- 路徑 字符串,可選
-
路徑數據源。
- 格式 字符串,可選
-
指定數據源格式的輸出。常見的有:
“δ”
“鋪”
“獸人”
json的
“csv”
- 模式 字符串或StructType,可選的
-
輸入模式。如果沒有,火花試圖推斷出自動模式。模式可以是一個火花StructType或DDL-formatted字符串col0 INT, col1翻倍。
- index_col str和str列表,可選的,默認值:沒有
-
表的索引列火花。
- 選項 dict
-
所有其他選項直接傳遞到火花的數據源。
另請參閱
-
DataFrame.to_spark_io
-
DataFrame.read_table
-
DataFrame.read_delta
-
DataFrame.read_parquet
例子
> > >ps。範圍(1)。to_spark_io(”% s/ read_spark_io data.parquet”%路徑)> > >ps。read_spark_io(…”% s/ read_spark_io data.parquet”%路徑,格式=“鋪”,模式=“id長”)id0 0
> > >ps。範圍(10,15,num_partitions=1)。to_spark_io(”% s/ read_spark_io data.json”%路徑,…格式=json的,lineSep=“_”)> > >ps。read_spark_io(…”% s/ read_spark_io data.json”%路徑,格式=json的,模式=“id長”,lineSep=“_”)id0 101 112 123 134 14
你可以保留指數往返如下。
> > >ps。範圍(10,15,num_partitions=1)。to_spark_io(”% s/ read_spark_io data.orc”%路徑,…格式=“獸人”,index_col=“指數”)> > >ps。read_spark_io(…路徑=r”% s/ read_spark_io data.orc”%路徑,格式=“獸人”,index_col=“指數”)…id指數0 101 112 123 134 14