解決:Re:火花謂詞下推鋪文件時……頁2 -磚- 30530

JacintoArias · ‎01-28-2022

你好,

在開發ETL對於大型的數據集,我想樣品頂部行檢查我的管道“運行”,所以我添加一個限製條款在讀取數據。

我驚訝地看到,不是創建一個單獨的任務,顯示命令創建了一個為每個分區文件(idk如果隻是檢查元數據或預加載數據,但是我擔心的是第二種情況下的執行時間)。

我期待的極限(n)條款下推到文件係統和加載數據從文件要求的數量。

有辦法確保這種行為?幹杯!

最小的例子:

(火花.read.parquet(“<路徑>”)#分區過濾器。()#獲得最高行.limit (100)) spark.show() # <——這等於觸發工作的任務數量的分區中的文件…

Hubert_Dudek1 · ‎02-01-2022

你也可以嚐試閱讀拚花與限製和流觸發一次選擇。

然後設置不同的檢查點和限製取決於環境。

用觸發器的流加載批作業,可以使用相同的代碼。此外cloudfiles磚很好的檢測的新文件。

JacekLaskowski · ‎03-13-2023

這是一段時間以來被問到的問題,與此同時三角洲湖2.2.0一上架與OP問到確切的特性,即限製疊加:

限製疊加到三角洲掃描。提高查詢的性能包含限製條款限製下推到三角洲掃描期間查詢計劃。德爾塔掃描使用限製與文件級別的文件行數減少掃描有助於查詢閱讀文件數量少得多,可以限製查詢快10 - 100 x取決於表的大小。

磚