解決:如何主動監控緩存的使用fo……-磚- 31763

Hila_DG · ‎01-12-2022

存在的問題:

我們有一個dataframe基於查詢:

SELECT * FROM Very_Big_Table

這個表返回超過4 GB的數據,當我們試圖推動權力BI我們得到的數據錯誤信息:

ODBC:錯誤(HY000][微軟][哈迪]從服務器(35)錯誤:錯誤代碼:“0”錯誤信息:“錯誤運行查詢:org.apache.spark。SparkException:工作階段失敗而終止:序列化結果的總規模87(4.0直布羅陀海峽)大於spark.driver任務。maxResultSize 4.0直布羅陀。”。

為了處理這個錯誤我們已經做了以下:

1。我們已經改變了司機集群火花的配置。maxresultSize 10 gb -spark.driver。maxResultSize 10克。現在有完美的數據。

2。我們添加了一個限製的數據來自Very_Big_Table (where子句的數據大小的限製,過去7天)。

我們想要達到什麼?

我們要積極主動的過程。為了保證這種錯誤不會再發生,我們考慮間隙的警告。我們希望能夠提前知道————當我們接近觸及緩存限製,所以刷新會順利,我們將停止刷新過程,得到某種形式的通知看到的尺寸太大了。或者,如果我們看到我們正在接近10 GB的限製我們拉的數據,我們可以考慮改變司機在這發生之前的配置/限製從源表的數據。

這是信息在日誌中嗎?我們能的大小dataframe內部磚之前我們嚐試發送功率BI緩存可以容納數據?

請讓我們知道。

謝謝!

werners1 · ‎01-14-2022

有一個大小估計。

但這隻是一個估計的可靠性可能會有所不同。

在這裏是一個您可以使用的選項,但performancewise這是次優的(你必須緩存)。

在原帖子查看解決方案

匿名 · ‎01-12-2022

@Hila Galapo——歡迎和感謝你的問題!我們會給社區回應的機會在我們圈回來。

werners1 · ‎01-14-2022

有一個大小估計。

但這隻是一個估計的可靠性可能會有所不同。

在這裏是一個您可以使用的選項,但performancewise這是次優的(你必須緩存)。

Hubert_Dudek1 · ‎01-14-2022

因為它隻是選擇BI工具我強烈建議開始使用SQL serverless端點。它有高級版(你可以有兩個工作區在Azure標準版和高級版在同一時間)。在我看來它是更穩定的,有時也便宜不需要vm。

匿名 · ‎01-26-2022

@Hila Galapo——這些答案幫助你嗎?如果是的,你會很高興它標記為最好,其他成員可以找到解決方案更快嗎?

磚

如何主動監控為司機節點緩存的使用?