>矢量化熊貓UDF是如何工作的呢?
這裏有一個視頻解釋的內部熊貓udf(也稱為矢量化udf)https://youtu.be/UZl0pHG-2HA?t=123。他們使用Apache箭頭,JVM之間直接交換數據和Python驅動程序/執行人的(反)序列化成本幾乎為零。
>做矢量化熊貓udf適用於批次的數據按順序或並行?
如果假設subtract_mean分組地圖——當您運行
df.groupby (" id ")蘋果(subtract_mean),告訴()
火花的分區轉換成箭頭記錄批次和根據id的基數,將並行處理多個批次。
>,有辦法設置批量大小?
你可以配置spark.sql.execution.arrow.maxRecordsPerBatch