取消
顯示的結果
而不是尋找
你的意思是:

磚筆記本花了很長時間運行的查詢的某個時候(即使在空表)

Retko
貢獻者

你好,

有時我發現運行一個查詢花費的時間太長,甚至簡單的查詢,和下次當我運行相同查詢它運行得更快。我有集群運行(DBR 10.4 LTS•5工人)和它不斷幾個工人。

查詢的一個例子是簡單的選擇表我之前截的,所以我知道它是空的,我做一些類似:

# df =火花。sql (f”““select count(*)從table_name”" ")顯示(df)

第一次花了1.3分鍾,再次運行它花了0.6秒。

似乎經常發生,仿佛等待開始的東西,盡管它應該是啟動和運行。

你有一些解釋這種行為,我如何可以幫助嗎?

謝謝你!

5回複5

UmaMahesh1
尊敬的貢獻者三世

嗨@Retko Okter

兩件事可能會回答你的問題。

  1. 當你調用一個操作第一次表得到δ緩存在內存和文件的副本將存儲在本地節點的存儲,因為你將能夠運行查詢更快。
  2. 我聽起來可能很傻,但是如果你啟用自動定量的集群,檢查事件日誌的火花ui如果集群升級或降級。當集群在收購/移除新節點的過程中,您的查詢顯然被推遲。

希望這個有幫助。

歡呼聲……

al -
重視貢獻三世

我同意@Retko Okter

支持第二點,找到下麵的解釋,

優化自動定量

  • 首先,從最小到最大尺度2步驟。
  • 其次,即使可以縮小規模集群不空閑看洗牌文件狀態。
  • 第三,基於當前節點的比例尺度。
  • 工作的集群,尺度下如果集群充分利用過去40秒。
  • 最後,在通用的集群,尺度下如果集群充分利用過去150秒。

標準自動定量

  • 首先,從添加8節點開始。此後,規模成倍增長,但可以采取很多措施來達到最大值。
  • 其次,天平隻有當集群完全閑置,它充分利用了過去10分鍾。
  • 最後,規模成倍增長,從1開始節點。

werners1
尊敬的貢獻者三世

你確定隻有你一個人使用集群?

Geeta1
價值貢獻

嘿@Retko Okter,如果其通用的集群和多個用戶使用它,那麼工作負載可能高和結果需要時間。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map