動態文件修剪
動態文件修剪,可以顯著提高查詢的性能在三角洲湖表。動態文件修剪是特別有效的為非分區表,或加入非分區列上。動態文件修剪對性能的影響往往是相關的集群數據所以考慮使用z值最大化效益。
對於動態背景和用例文件修剪,明白了更快的SQL查詢與動態文件修剪三角洲湖。
配置
動態文件修剪是由以下Apache火花配置選項:
spark.databricks.optimizer.dynamicFilePruning
(默認是真正的
):指示優化器的主要標誌壓低過濾器。當設置為假
修剪、動態文件將不會生效。spark.databricks.optimizer.deltaTableSizeThreshold
(默認是10000000000年字節(10GB)
):代表了最小大小(以字節為單位)三角洲表探頭一側連接需要觸發動態文件的修剪。如果探針方麵不是非常大,它可能不是值得壓低過濾器和我們可以簡單地掃描整個表。你可以找到δ表通過運行的大小描述細節table_name
命令,然後看sizeInBytes
列。spark.databricks.optimizer.deltaTableFilesThreshold
(默認是10
在磚運行時的8.4及以上,1000年
在磚運行時8.3及以下):代表三角洲表的文件數量調查方麵的連接需要觸發動態文件修剪。當探測器方麵比閾值表包含更少的文件,動態文件修剪不觸發。如果一個表隻有幾個文件,它可能是不值得啟用動態文件修剪。你可以找到δ表通過運行的大小描述細節table_name
命令,然後看numFiles
列。