pyspark.pandas.DataFrame.spark.apply

火花。 應用 ( 函數:可調用的((pyspark.sql.dataframe.DataFrame],pyspark.sql.dataframe.DataFrame],index_col:聯盟(str,列表(str),沒有一個)=沒有一個 )→ps.DataFrame

適用於一個函數,並返回一個火花DataFrame。它允許本地應用火花函數和列內部api與火花列用於係列或索引。

請注意

index_col,保持輸出列命名為在火花DataFrame避免使用默認的索引來防止性能損失。如果您省略index_col,它將使用默認索引,可能是昂貴的。

請注意

它將失去列標簽。這是一個同義詞func (psdf.to_spark (index_col) .pandas_api (index_col)

參數
函數 函數

應用函數對數據使用DataFrame火花。

返回
DataFrame
提出了
ValueError 如果函數的輸出不是一個火花DataFrame。

例子

> > >psdf=psDataFrame({“一個”:(1,2,3),“b”:(4,5,6)},=(“一個”,“b”])> > >psdf一個b0 1 41 2 52 3 6
> > >psdf火花應用(λ自衛隊:自衛隊selectExpr(“a + b, c”,“指數”),index_col=“指數”)c指數0 51 72 9

下麵的情況下最終使用默認的索引,如果可能的話,應該避免。

> > >psdf火花應用(λ自衛隊:自衛隊groupby(“一個”)()排序(“一個”))一個計數0 1 11 2 11 2 3