pyspark.pandas.DataFrame.pivot¶
-
DataFrame。
主
( 指數:(任何工會,Tuple,…,沒有)=沒有一個,列:(任何工會,Tuple,…,沒有)=沒有一個,值:(任何工會,Tuple,…,沒有)=沒有一個 )→pyspark.pandas.frame.DataFrame¶ -
返回重塑DataFrame由給定的索引/列值。
重塑數據(產生一個“主”表)基於列值。使用獨特的指定值指數/列形成產生的DataFrame軸。這個函數不支持數據聚合。
- 參數
-
- 指數 字符串,可選
-
列使用新框架的指數。如果沒有,使用現有的索引。
- 列 字符串
-
列使用新框架的列。
- 值 字符串、對象或前麵的列表
-
列(s)用於填充新幀的值。
- 返回
-
- DataFrame
-
返回重塑DataFrame。
另請參閱
-
DataFrame.pivot_table
-
泛化的主為一個索引/列對處理重複的值。
例子
> > >df=ps。DataFrame({“foo”:(“一個”,“一個”,“一個”,“兩個”,“兩個”,…“兩個”),…“酒吧”:(“一個”,“B”,“C”,“一個”,“B”,“C”),…“記者”:(1,2,3,4,5,6),…“動物園”:(“x”,“y”,“z”,“問”,' w ',“t”)},…列=(“foo”,“酒吧”,“記者”,“動物園”])> > >dffoo酒吧巴茲動物園0 1 1 x1一個B 2 y2一個C 3 z3兩個4 q4兩個B 5 w5兩個C 6 t
> > >df。主(指數=“foo”,列=“酒吧”,值=“記者”)。sort_index()…酒吧A B C噴火一個1 2 3兩個4 5 6
> > >df。主(列=“酒吧”,值=“記者”)。sort_index()酒吧A B C0 1.0南南2.0 1南南2南南3.03 4.0南南4南5.0南5南南6.0
注意,不像熊貓提出了一個ValueError找到重複的值時,首次pandas-on-Spark主仍使用價值滿足操作期間因為主是一項昂貴的操作,它是喜歡自由地執行失敗時快速處理大量數據。
> > >df=ps。DataFrame({“foo”:(“一個”,“一個”,“兩個”,“兩個”),…“酒吧”:(“一個”,“一個”,“B”,“C”),…“記者”:(1,2,3,4)},列=(“foo”,“酒吧”,“記者”])> > >dffoo酒吧巴茲0一個11一22兩個B 33兩個C 4
> > >df。主(指數=“foo”,列=“酒吧”,值=“記者”)。sort_index()…酒吧A B C噴火一個1.0南南兩個南3.0 - 4.0
它還支持多索引和多索引列。> > > df。列=pd.MultiIndex.from_tuples([(‘a’, ‘foo’), (‘a’, ‘bar’), (‘b’, ‘baz’)])
> > >df=df。set_index((“一個”,“酒吧”),附加=真正的)> > >df一個bfoo巴茲(酒吧)0 1 11一22 B兩個33 C兩個4
> > >df。主(列=(“一個”,“foo”),值=(“b”,“記者”))。sort_index()…(“a”,“foo”)一個兩個(酒吧)0 1.0南1 2.0南2 B南3.03 C 4.0南