再保險:為什麼磚產生多個作業-磚- 12744

pawelmitrus · ‎07-24-2022

我有一個表spark101三角洲。航空公司(來自/ databricks-datasets /航空/)分區由“年”。我的“spark.sql.shuffle。分區的設置為默認的200。我運行一個簡單的查詢:

從spark101選擇起源,count (*)。航空集團的起源

階段1:讀取數據到17個分區,類似於我的‘spark.sql.files.maxPartitionBytes’。這個階段也pre-aggregates數據範圍內的每個執行器並保存成200個分區。

我希望:

階段2:它應該產生200任務閱讀和綜合分區從之前的階段。

我上帝而不是:

所有其他階段增加了200,但是為什麼有獨立的工作了?

werners1 · ‎07-25-2022

工作得到了行動。

看來你有多個代碼中的行動。

是你發布的代碼片段整個筆記本嗎?

pawelmitrus · ‎07-31-2022

我認為這是磚是否在運行一個查詢結果返回給筆記本。當我寫這個sql語句到存儲,那麼隻有1 2階段,如預期的工作。

pawelmitrus · ‎07-26-2022

是的,這是我的一切。我還應該提及:

它看起來像磚有某種方法的創造就業機會/階段的方式:

所以最終它是(1、4、20、100、75)= 200

User16753725469 · ‎09-01-2022

請粘貼這裏的查詢計劃分析問題

磚