07-17-202312:02點
我想創建一個DataFrame使用火花但我有一些問題我使用的數據量。我做了一個通過多個API調用與超過100萬個條目列表。高於閾值的列表spark.rpc.message。最大容量和使用廣播也太大。我一直在讓伯父等使用大量內存錯誤。所以,我創建了兩個列表從原始列表中的數據。當我試圖創建DataFrame再次spark.rpc.message規模還是太大。最大容量,使用32重新分區。我endgoal加入兩個表在一個臨時視圖,然後寫信給鋪PowerBI所以我能得到所有的數據報告。
一個月前
嘿@charry
看看這個KB文章,這將有助於解決這個問題。
https://kb.www.eheci.com/execution/spark-serialized-task-is-too-large
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。