pyspark.pandas.DataFrame.spark.apply¶
-
火花。
應用
( 函數:可調用的((pyspark.sql.dataframe.DataFrame],pyspark.sql.dataframe.DataFrame],index_col:聯盟(str,列表(str),沒有一個)=沒有一個 )→ps.DataFrame¶ -
適用於一個函數,並返回一個火花DataFrame。它允許本地應用火花函數和列內部api與火花列用於係列或索引。
請注意
集index_col,保持輸出列命名為在火花DataFrame避免使用默認的索引來防止性能損失。如果您省略index_col,它將使用默認索引,可能是昂貴的。
請注意
它將失去列標簽。這是一個同義詞
func (psdf.to_spark (index_col) .pandas_api (index_col)
。- 參數
-
- 函數 函數
-
應用函數對數據使用DataFrame火花。
- 返回
-
- DataFrame
- 提出了
-
- ValueError 如果函數的輸出不是一個火花DataFrame。
例子
> > >psdf=ps。DataFrame({“一個”:(1,2,3),“b”:(4,5,6)},列=(“一個”,“b”])> > >psdf一個b0 1 41 2 52 3 6
> > >psdf。火花。應用(…λ自衛隊:自衛隊。selectExpr(“a + b, c”,“指數”),index_col=“指數”)…c指數0 51 72 9
下麵的情況下最終使用默認的索引,如果可能的話,應該避免。
> > >psdf。火花。應用(λ自衛隊:自衛隊。groupby(“一個”)。數()。排序(“一個”))一個計數0 1 11 2 11 2 3