pyspark.sql.DataFrame.mapInPandas

DataFrame。 mapInPandas ( 函數:PandasMapIterFunction,模式:聯盟(pyspark.sql.types.StructType,str] )→DataFrame

地圖批次在當前的迭代器DataFrame使用Python的本機函數和輸出一個熊貓DataFrame,並返回結果DataFrame

的函數應該采取一個迭代器pandas.DataFrame年代和返回的另一個迭代器pandas.DataFrame年代。所有列在一起作為一個迭代器的傳遞pandas.DataFrame的函數和返回的迭代器pandas.DataFrames是作為相結合DataFrame。每一個pandas.DataFrame大小可以控製的spark.sql.execution.arrow.maxRecordsPerBatch

參數
函數 函數

一個Python本機函數需要一個迭代器pandas.DataFrame年代,和輸出迭代器pandas.DataFrame年代。

模式 pyspark.sql.types.DataType或str

的返回類型函數在PySpark。值可以是pyspark.sql.types.DataType對象或DDL-formatted類型字符串。

筆記

這個API是實驗

例子

> > >pyspark.sql.functions進口pandas_udf> > >df=火花createDataFrame(((1,21),(2,30.)),(“id”,“年齡”))> > >deffilter_func(迭代器):pdf迭代器:收益率pdf(pdfid= =1]> > >dfmapInPandas(filter_func,df模式)顯示()+ - - - + - - - +年齡| | | id+ - - - + - - - +| 1 | | 21日+ - - - + - - - +