pyspark.pandas.DataFrame.pivot

DataFrame。 ( 指數:(任何工會,Tuple,…,沒有)=沒有一個,:(任何工會,Tuple,…,沒有)=沒有一個,:(任何工會,Tuple,…,沒有)=沒有一個 )→pyspark.pandas.frame.DataFrame

返回重塑DataFrame由給定的索引/列值。

重塑數據(產生一個“主”表)基於列值。使用獨特的指定值指數/形成產生的DataFrame軸。這個函數不支持數據聚合。

參數
指數 字符串,可選

列使用新框架的指數。如果沒有,使用現有的索引。

字符串

列使用新框架的列。

字符串、對象或前麵的列表

列(s)用於填充新幀的值。

返回
DataFrame

返回重塑DataFrame。

另請參閱

DataFrame.pivot_table

泛化的主為一個索引/列對處理重複的值。

例子

> > >df=psDataFrame({“foo”:(“一個”,“一個”,“一個”,“兩個”,“兩個”,“兩個”),“酒吧”:(“一個”,“B”,“C”,“一個”,“B”,“C”),“記者”:(1,2,3,4,5,6),“動物園”:(“x”,“y”,“z”,“問”,' w ',“t”)},=(“foo”,“酒吧”,“記者”,“動物園”])> > >dffoo酒吧巴茲動物園0 1 1 x1一個B 2 y2一個C 3 z3兩個4 q4兩個B 5 w5兩個C 6 t
> > >df(指數=“foo”,=“酒吧”,=“記者”)sort_index()酒吧A B C噴火一個1 2 3兩個4 5 6
> > >df(=“酒吧”,=“記者”)sort_index()酒吧A B C0 1.0南南2.0 1南南2南南3.03 4.0南南4南5.0南5南南6.0

注意,不像熊貓提出了一個ValueError找到重複的值時,首次pandas-on-Spark主仍使用價值滿足操作期間因為主是一項昂貴的操作,它是喜歡自由地執行失敗時快速處理大量數據。

> > >df=psDataFrame({“foo”:(“一個”,“一個”,“兩個”,“兩個”),“酒吧”:(“一個”,“一個”,“B”,“C”),“記者”:(1,2,3,4)},=(“foo”,“酒吧”,“記者”])> > >dffoo酒吧巴茲0一個11一22兩個B 33兩個C 4
> > >df(指數=“foo”,=“酒吧”,=“記者”)sort_index()酒吧A B C噴火一個1.0南南兩個南3.0 - 4.0

它還支持多索引和多索引列。> > > df。列=pd.MultiIndex.from_tuples([(‘a’, ‘foo’), (‘a’, ‘bar’), (‘b’, ‘baz’)])

> > >df=dfset_index((“一個”,“酒吧”),附加=真正的)> > >df一個bfoo巴茲(酒吧)0 1 11一22 B兩個33 C兩個4
> > >df(=(“一個”,“foo”),=(“b”,“記者”))sort_index()(“a”,“foo”)一個兩個(酒吧)0 1.0南1 2.0南2 B南3.03 C 4.0南