pyspark.pandas.DataFrame.spark.apply¶

火花。 應用 ( 函數:可調用的((pyspark.sql.dataframe.DataFrame],pyspark.sql.dataframe.DataFrame],index_col:聯盟(str,列表(str),沒有一個)=沒有一個 )→ps.DataFrame¶

適用於一個函數,並返回一個火花DataFrame。它允許本地應用火花函數和列內部api與火花列用於係列或索引。

請注意

集index_col,保持輸出列命名為在火花DataFrame避免使用默認的索引來防止性能損失。如果您省略index_col,它將使用默認索引,可能是昂貴的。

請注意

它將失去列標簽。這是一個同義詞func (psdf.to_spark (index_col) .pandas_api (index_col)。

參數

返回

提出了

例子

           > > >psdf=ps。DataFrame({“一個”:(1,2,3),“b”:(4,5,6)},列=(“一個”,“b”])> > >psdf一個b0 1 41 2 52 3 6
          

           > > >psdf。火花。應用(…λ自衛隊:自衛隊。selectExpr(“a + b, c”,“指數”),index_col=“指數”)…c指數0 51 72 9
          

下麵的情況下最終使用默認的索引,如果可能的話,應該避免。

           > > >psdf。火花。應用(λ自衛隊:自衛隊。groupby(“一個”)。數()。排序(“一個”))一個計數0 1 11 2 11 2 3
          

以前的

pyspark.pandas.DataFrame.spark.to_spark_io

下一個

pyspark.pandas.DataFrame.spark.repartition