我建立的過程模型是:
- 過濾數據集和分裂成兩個數據集
- 符合模型基於兩個數據集
- 聯盟兩個數據集
- 重複1 - 3步驟
問題是,若幹次迭代後,模型擬合時間變得不再顯著,和我得到錯誤消息:org.apache.spark。SparkException:工作階段失敗而終止:序列化結果的總規模9587 (4.0 GB)大於spark.driver任務。maxResultSize (4.0 GB)。但事實上的數據列和行保持不變。
模型擬合時間也會增加,我不認為spark.driver增加。maxResultSize將解決這個問題。任何建議嗎?謝謝。