pyspark.pandas.DataFrame.pipe

DataFrame。 ( 函數:可調用的[[…],任何),*arg遊戲:任何,* *kwargs:任何 )→任何

應用函數(自我,* args, * * kwargs)。

參數
函數 函數

函數適用於DataFrame。arg遊戲,kwargs傳遞給函數。另外一個(可調用的,data_keyword)元組,data_keyword是一個字符串顯示關鍵字的可調用的預計DataFrames。

arg遊戲 iterable,可選

位置參數傳遞給函數

kwargs 映射,可選

字典的關鍵字參數傳入函數

返回
對象 的返回類型函數

筆記

使用.pipe當鏈接在一起的功能期待係列,DataFrames或GroupBy對象。例如,給定

> > >df=psDataFrame({“類別”:(“一個”,“一個”,“B”),“col1”:(1,2,3),“col2”:(4,5,6)},=(“類別”,“col1”,“col2”])> > >defkeep_category_a(df):返回df(df(“類別”]= =“一個”]> > >defadd_one(df,):返回df分配(col3=df(]+1)> > >def(df,column1,column2):返回df分配(col4=df(column1]*df(column2])

而不是寫

> > >(add_one(keep_category_a(df),=“col1”),column1=“col2”,column2=“col3”)col1 col2 col3 col4類別0 1 2 4 81 2 5 3 15

你可以寫

> > >(df(keep_category_a)(add_one,=“col1”)(,column1=“col2”,column2=“col3”))col1 col2 col3 col4類別0 1 2 4 81 2 5 3 15

如果你有一個函數,將數據作為第二個參數(說),通過一個元組表示關鍵字預計數據。例如,假設f以數據為df:

> > >defmultiply_2(column1,df,column2):返回df分配(col4=df(column1]*df(column2])

然後你可以寫

> > >(df(keep_category_a)(add_one,=“col1”)((multiply_2,“df”),column1=“col2”,column2=“col3”))col1 col2 col3 col4類別0 1 2 4 81 2 5 3 15

您可以使用lambda逢

> > >ps係列([1,2,3])(λx:(x+1)重命名(“價值”))0 21 32 4名稱:價值,dtype: int64