矢量化熊貓UDF是如何工作的呢?-磚- 25287

User16752246553 · ‎06-10-2021

做矢量化熊貓udf適用於批次的數據按順序或並行?和有辦法設置批量大小?

sajith_appukutt · ‎06-17-2021

>矢量化熊貓UDF是如何工作的呢?

這裏有一個視頻解釋的內部熊貓udf(也稱為矢量化udf)https://youtu.be/UZl0pHG-2HA?t=123。他們使用Apache箭頭,JVM之間直接交換數據和Python驅動程序/執行人的(反)序列化成本幾乎為零。

>做矢量化熊貓udf適用於批次的數據按順序或並行?

如果假設subtract_mean分組地圖——當您運行

df.groupby (" id ")蘋果(subtract_mean),告訴()

火花的分區轉換成箭頭記錄批次和根據id的基數,將並行處理多個批次。

>,有辦法設置批量大小?

你可以配置spark.sql.execution.arrow.maxRecordsPerBatch