pyspark.pandas.DataFrame.itertuples

DataFrame。 itertuples ( 指數:bool=真正的,的名字:可選(str]=“PandasOnSpark” )→迭代器(元組]

遍曆DataFrame namedtuples行。

參數
指數 bool,默認的真

如果這是真的,返回第一個元素的索引數組。

的名字 str或沒有,默認“PandasOnSpark”

的名稱返回namedtuples或沒有返回正則元組。

返回
迭代器

對象遍曆namedtuples DataFrame中的每一行的第一個字段可能是指數和以下字段的列值。

另請參閱

DataFrame.iterrows

遍曆DataFrame行(指數係列)對。

DataFrame.items

遍曆(列名稱、係列)對。

筆記

列名稱將更名為位置名稱Python標識符,如果他們是無效的重複,或從一個下劃線。在python版本< 3.7正則元組返回DataFrames與大量的列(> 254)。

例子

> > >df=psDataFrame({“num_legs”:(4,2),“num_wings”:(0,2)},指數=(“狗”,“鷹”])> > >dfnum_legs num_wings狗4 0鷹2 2
> > >dfitertuples():打印()PandasOnSpark(指數=‘狗’,num_legs = 4, num_wings = 0)PandasOnSpark(指數=‘鷹’,num_legs = 2, num_wings = 2)

通過設置指數參數錯誤我們可以刪除索引作為第一個元素的元組:

> > >dfitertuples(指數=):打印()PandasOnSpark (num_legs = 4, num_wings = 0)PandasOnSpark (num_legs = 2, num_wings = 2)

的名字參數集我們取得了namedtuples設置自定義名稱:

> > >dfitertuples(的名字=“動物”):打印()動物(指數=‘狗’,num_legs = 4, num_wings = 0)動物(指數=‘鷹’,num_legs = 2, num_wings = 2)