試圖優化增量表統計:
- 大小:212848團、31162417246985字節
- 命令:優化<表> ZORDER (X, Y, Z)
火花UI中我可以看到所有的工作劃分批次,和每一批從400年開始任務來收集數據。但每個批處理階段失敗後收集數據。錯誤的例子:
- 描述:(批11(處理文件((35651 - 39203)/ 213211)])優化3553年abfss文件:/ / <表>
- 任務:1510/3200
- 失敗原因:工作階段失敗而終止:序列化結果的總規模1511(4.0直布羅陀海峽)大於spark.driver任務。maxResultSize 4.0直布羅陀海峽。
與默認的配置命令運行。
問題是為什麼優化過程選擇批次不匹配spark.driver.maxResultSize限製嗎?我們如何配置分裂創造小批量?