取消
顯示的結果
而不是尋找
你的意思是:

火花謂詞下推鋪文件在使用極限

JacintoArias
新的貢獻者二世

你好,

在開發ETL對於大型的數據集,我想樣品頂部行檢查我的管道“運行”,所以我添加一個限製條款在讀取數據。

我驚訝地看到,不是創建一個單獨的任務,顯示命令創建了一個為每個分區文件(idk如果隻是檢查元數據或預加載數據,但是我擔心的是第二種情況下的執行時間)。

我期待的極限(n)條款下推到文件係統和加載數據從文件要求的數量。

有辦法確保這種行為?幹杯!

最小的例子:

(火花.read.parquet(“<路徑>”)#分區過濾器。()#獲得最高行.limit (100)) spark.show() # <——這等於觸發工作的任務數量的分區中的文件…

6個回答6

Hubert_Dudek1
尊敬的貢獻者三世

你也可以嚐試閱讀拚花與限製和流觸發一次選擇。

然後設置不同的檢查點和限製取決於環境。

用觸發器的流加載批作業,可以使用相同的代碼。此外cloudfiles磚很好的檢測的新文件。

JacekLaskowski
新的貢獻者二世

這是一段時間以來被問到的問題,與此同時三角洲湖2.2.0一上架與OP問到確切的特性,即限製疊加:

限製疊加到三角洲掃描。提高查詢的性能包含限製條款限製下推到三角洲掃描期間查詢計劃。德爾塔掃描使用限製與文件級別的文件行數減少掃描有助於查詢閱讀文件數量少得多,可以限製查詢快10 - 100 x取決於表的大小。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map