存在的問題:
我們有一個dataframe基於查詢:
SELECT * FROM Very_Big_Table
這個表返回超過4 GB的數據,當我們試圖推動權力BI我們得到的數據錯誤信息:
ODBC:錯誤(HY000][微軟][哈迪]從服務器(35)錯誤:錯誤代碼:“0”錯誤信息:“錯誤運行查詢:org.apache.spark。SparkException:工作階段失敗而終止:序列化結果的總規模87(4.0直布羅陀海峽)大於spark.driver任務。maxResultSize 4.0直布羅陀。”。
為了處理這個錯誤我們已經做了以下:
1。我們已經改變了司機集群火花的配置。maxresultSize 10 gb -spark.driver。maxResultSize 10克。現在有完美的數據。
2。我們添加了一個限製的數據來自Very_Big_Table (where子句的數據大小的限製,過去7天)。
我們想要達到什麼?
我們要積極主動的過程。為了保證這種錯誤不會再發生,我們考慮間隙的警告。我們希望能夠提前知道————當我們接近觸及緩存限製,所以刷新會順利,我們將停止刷新過程,得到某種形式的通知看到的尺寸太大了。或者,如果我們看到我們正在接近10 GB的限製我們拉的數據,我們可以考慮改變司機在這發生之前的配置/限製從源表的數據。
這是信息在日誌中嗎?我們能的大小dataframe內部磚之前我們嚐試發送功率BI緩存可以容納數據?
請讓我們知道。
謝謝!