取消
顯示的結果
而不是尋找
你的意思是:

經過幾次迭代過濾和聯盟,數據比spark.driver.maxResultSize大

Geeya
新的貢獻者二世

我建立的過程模型是:

  1. 過濾數據集和分裂成兩個數據集
  2. 符合模型基於兩個數據集
  3. 聯盟兩個數據集
  4. 重複1 - 3步驟

問題是,若幹次迭代後,模型擬合時間變得不再顯著,和我得到錯誤消息:org.apache.spark。SparkException:工作階段失敗而終止:序列化結果的總規模9587 (4.0 GB)大於spark.driver任務。maxResultSize (4.0 GB)。但事實上的數據列和行保持不變。

模型擬合時間也會增加,我不認為spark.driver增加。maxResultSize將解決這個問題。任何建議嗎?謝謝。

1回複1

Ryan_Chynoweth
尊敬的貢獻者三世

我假設您正在使用PySpark火車模型?聽起來你在司機和收集數據可能需要增加尺寸。你能分享任何代碼嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map