pyspark.pandas.read_delta

pyspark.pandas。 read_delta ( 路徑:str,版本:可選(str]=沒有一個,時間戳:可選(str]=沒有一個,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *選項:任何 )→pyspark.pandas.frame.DataFrame

三角洲湖表一些文件係統讀取並返回一個DataFrame。

如果三角洲湖表已經存儲在目錄(又名metastore),使用“read_table”。

參數
路徑 字符串

路徑表三角洲湖。

版本 字符串,可選

指定表的版本(基於三角洲的內部事務版)閱讀,用δ的時間旅行特性。這組三角洲的“versionAsOf”選項。請注意,這個參數時間戳參數不能同時使用,否則它將提高ValueError

時間戳 字符串,可選

指定表版本讀取(基於時間戳),用δ的時間旅行特性。這一定是一個有效的日期或時間戳字符串的火花,並設置三角洲的“timestampAsOf”選項。請注意,這個參數版本參數不能同時使用,否則它將提高ValueError

index_col str和str列表,可選的,默認值:沒有

表的索引列火花。

選項

可以傳遞到三角洲的附加選項。

返回
DataFrame

例子

> > >ps範圍(1)to_delta(% s/ read_delta / foo”%路徑)> > >psread_delta(% s/ read_delta / foo”%路徑)id0 0
> > >ps範圍(10,15,num_partitions=1)to_delta(% s/ read_delta / foo”%路徑,模式=“覆蓋”)> > >psread_delta(% s/ read_delta / foo”%路徑)id0 101 112 123 134 14
> > >psread_delta(% s/ read_delta / foo”%路徑,版本=0)id0 0

你可以保留指數往返如下。

> > >ps範圍(10,15,num_partitions=1)to_delta(% s/ read_delta /酒吧'%路徑,index_col=“指數”)> > >psread_delta(% s/ read_delta /酒吧'%路徑,index_col=“指數”)id指數0 101 112 123 134 14