pyspark.pandas.DataFrame.itertuples¶
-
DataFrame。
itertuples
( 指數:bool=真正的,的名字:可選(str]=“PandasOnSpark” )→迭代器(元組] ¶ -
遍曆DataFrame namedtuples行。
- 參數
-
- 指數 bool,默認的真
-
如果這是真的,返回第一個元素的索引數組。
- 的名字 str或沒有,默認“PandasOnSpark”
-
的名稱返回namedtuples或沒有返回正則元組。
- 返回
-
- 迭代器
-
對象遍曆namedtuples DataFrame中的每一行的第一個字段可能是指數和以下字段的列值。
另請參閱
-
DataFrame.iterrows
-
遍曆DataFrame行(指數係列)對。
-
DataFrame.items
-
遍曆(列名稱、係列)對。
筆記
列名稱將更名為位置名稱Python標識符,如果他們是無效的重複,或從一個下劃線。在python版本< 3.7正則元組返回DataFrames與大量的列(> 254)。
例子
> > >df=ps。DataFrame({“num_legs”:(4,2),“num_wings”:(0,2)},…指數=(“狗”,“鷹”])> > >dfnum_legs num_wings狗4 0鷹2 2
> > >為行在df。itertuples():…打印(行)…PandasOnSpark(指數=‘狗’,num_legs = 4, num_wings = 0)PandasOnSpark(指數=‘鷹’,num_legs = 2, num_wings = 2)
通過設置指數參數錯誤我們可以刪除索引作為第一個元素的元組:
> > >為行在df。itertuples(指數=假):…打印(行)…PandasOnSpark (num_legs = 4, num_wings = 0)PandasOnSpark (num_legs = 2, num_wings = 2)
與的名字參數集我們取得了namedtuples設置自定義名稱:
> > >為行在df。itertuples(的名字=“動物”):…打印(行)…動物(指數=‘狗’,num_legs = 4, num_wings = 0)動物(指數=‘鷹’,num_legs = 2, num_wings = 2)