解決:如何主動監控緩存的使用fo……頁2 -磚- 31763

Hila_DG · ‎01-12-2022

存在的問題:

我們有一個dataframe基於查詢:

SELECT * FROM Very_Big_Table

這個表返回超過4 GB的數據,當我們試圖推動權力BI我們得到的數據錯誤信息:

ODBC:錯誤(HY000][微軟][哈迪]從服務器(35)錯誤:錯誤代碼:“0”錯誤信息:“錯誤運行查詢:org.apache.spark。SparkException:工作階段失敗而終止:序列化結果的總規模87(4.0直布羅陀海峽)大於spark.driver任務。maxResultSize 4.0直布羅陀。”。

為了處理這個錯誤我們已經做了以下:

1。我們已經改變了司機集群火花的配置。maxresultSize 10 gb -spark.driver。maxResultSize 10克。現在有完美的數據。

2。我們添加了一個限製的數據來自Very_Big_Table (where子句的數據大小的限製,過去7天)。

我們想要達到什麼?

我們要積極主動的過程。為了保證這種錯誤不會再發生,我們考慮間隙的警告。我們希望能夠提前知道————當我們接近觸及緩存限製,所以刷新會順利,我們將停止刷新過程,得到某種形式的通知看到的尺寸太大了。或者,如果我們看到我們正在接近10 GB的限製我們拉的數據,我們可以考慮改變司機在這發生之前的配置/限製從源表的數據。

這是信息在日誌中嗎?我們能的大小dataframe內部磚之前我們嚐試發送功率BI緩存可以容納數據?

請讓我們知道。

謝謝!

VartikaNain · ‎05-13-2022

嘿@Hila Galapo

希望一切都好。隻是想檢查如果你能解決你的問題或者你需要更多的幫助?我們很想聽到你的聲音。

謝謝!

磚

如何主動監控為司機節點緩存的使用?