pyspark.pandas.Series.spark.apply

火花。 應用 ( 函數:可調用的((pyspark.sql.column.Column],pyspark.sql.column.Column] )→ps.Series

適用於一個函數,並返回一個火花列。它允許本地應用火花與火花列和列api函數內部使用的串聯或索引。

請注意

它迫使失去指數和最終使用默認的索引。優先使用Series.spark.transform ():甲:“DataFrame.spark.apply與指定inedx_col

請注意

它不需要有相同的長度的輸入和輸出。然而,它需要創建一個新的DataFrame內部需要設置compute.ops_on_diff_frames計算的同源DataFrame甚至是昂貴的,而Series.spark.transform ()不需要它。

參數
函數 函數

應用函數對數據通過使用火花列。

返回
係列
提出了
ValueError 如果函數的輸出不是一個火花列。

例子

> > >pyspark進口熊貓作為ps> > >pyspark.sql.functions進口,點燃> > >df=psDataFrame({“一個”:(1,2,3),“b”:(4,5,6)},=(“一個”,“b”])> > >df一個b0 1 41 2 52 3 6
> > >df一個火花應用(λc:(c))0 3名稱:dtype: int64
> > >df一個火花應用(λc:c+dfb火花)0 51 72 9名稱:dtype: int64