取消
顯示的結果
而不是尋找
你的意思是:

矢量化熊貓UDF是如何工作的呢?

User16752246553
新的因素

做矢量化熊貓udf適用於批次的數據按順序或並行?和有辦法設置批量大小?

1回複1

sajith_appukutt
尊敬的貢獻者二世

>矢量化熊貓UDF是如何工作的呢?

這裏有一個視頻解釋的內部熊貓udf(也稱為矢量化udf)https://youtu.be/UZl0pHG-2HA?t=123。他們使用Apache箭頭,JVM之間直接交換數據和Python驅動程序/執行人的(反)序列化成本幾乎為零。

>做矢量化熊貓udf適用於批次的數據按順序或並行?

如果假設subtract_mean分組地圖——當您運行

df.groupby (" id ")蘋果(subtract_mean),告訴()

火花的分區轉換成箭頭記錄批次和根據id的基數,將並行處理多個批次。

>,有辦法設置批量大小?

你可以配置spark.sql.execution.arrow.maxRecordsPerBatch

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map