pyspark.pandas.read_delta¶
-
pyspark.pandas。
read_delta
( 路徑:str,版本:可選(str]=沒有一個,時間戳:可選(str]=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→pyspark.pandas.frame.DataFrame¶ -
三角洲湖表一些文件係統讀取並返回一個DataFrame。
如果三角洲湖表已經存儲在目錄(又名metastore),使用“read_table”。
- 參數
-
- 路徑 字符串
-
路徑表三角洲湖。
- 版本 字符串,可選
-
指定表的版本(基於三角洲的內部事務版)閱讀,用δ的時間旅行特性。這組三角洲的“versionAsOf”選項。請注意,這個參數時間戳參數不能同時使用,否則它將提高ValueError。
- 時間戳 字符串,可選
-
指定表版本讀取(基於時間戳),用δ的時間旅行特性。這一定是一個有效的日期或時間戳字符串的火花,並設置三角洲的“timestampAsOf”選項。請注意,這個參數版本參數不能同時使用,否則它將提高ValueError。
- index_col str和str列表,可選的,默認值:沒有
-
表的索引列火花。
- 選項
-
可以傳遞到三角洲的附加選項。
- 返回
-
- DataFrame
例子
> > >ps。範圍(1)。to_delta(”% s/ read_delta / foo”%路徑)> > >ps。read_delta(”% s/ read_delta / foo”%路徑)id0 0
> > >ps。範圍(10,15,num_partitions=1)。to_delta(”% s/ read_delta / foo”%路徑,…模式=“覆蓋”)> > >ps。read_delta(”% s/ read_delta / foo”%路徑)id0 101 112 123 134 14
> > >ps。read_delta(”% s/ read_delta / foo”%路徑,版本=0)id0 0
你可以保留指數往返如下。
> > >ps。範圍(10,15,num_partitions=1)。to_delta(…”% s/ read_delta /酒吧'%路徑,index_col=“指數”)> > >ps。read_delta(”% s/ read_delta /酒吧'%路徑,index_col=“指數”)id指數0 101 112 123 134 14