經過幾次迭代的過濾和工會,d…-磚- 14962

Geeya · ‎09-22-2021

我建立的過程模型是:

過濾數據集和分裂成兩個數據集
符合模型基於兩個數據集
聯盟兩個數據集
重複1 - 3步驟

問題是,若幹次迭代後,模型擬合時間變得不再顯著,和我得到錯誤消息:org.apache.spark。SparkException:工作階段失敗而終止:序列化結果的總規模9587 (4.0 GB)大於spark.driver任務。maxResultSize (4.0 GB)。但事實上的數據列和行保持不變。

模型擬合時間也會增加,我不認為spark.driver增加。maxResultSize將解決這個問題。任何建議嗎?謝謝。

Ryan_Chynoweth · ‎09-22-2021

我假設您正在使用PySpark火車模型?聽起來你在司機和收集數據可能需要增加尺寸。你能分享任何代碼嗎?

磚

經過幾次迭代過濾和聯盟,數據比spark.driver.maxResultSize大