動態文件修剪

動態文件修剪,可以顯著提高查詢的性能在三角洲湖表。動態文件修剪是特別有效的為非分區表,或加入非分區列上。動態文件修剪對性能的影響往往是相關的集群數據所以考慮使用z值最大化效益。

重要的

您必須使用Photon-enabled計算使用動態文件修剪合並,更新,刪除語句。隻有選擇聲明動態文件修剪當光子不使用杠杆。

對於動態背景和用例文件修剪,明白了更快的SQL查詢與動態文件修剪三角洲湖

配置

動態文件修剪是由以下Apache火花配置選項:

  • spark.databricks.optimizer.dynamicFilePruning(默認是真正的):指示優化器的主要標誌壓低過濾器。當設置為修剪、動態文件將不會生效。

  • spark.databricks.optimizer.deltaTableSizeThreshold(默認是10000000000年字節(10GB)):代表了最小大小(以字節為單位)三角洲表探頭一側連接需要觸發動態文件的修剪。如果探針方麵不是非常大,它可能不是值得壓低過濾器和我們可以簡單地掃描整個表。你可以找到δ表通過運行的大小描述細節table_name命令,然後看sizeInBytes列。

  • spark.databricks.optimizer.deltaTableFilesThreshold(默認是10在磚運行時的8.4及以上,1000年在磚運行時8.3及以下):代表三角洲表的文件數量調查方麵的連接需要觸發動態文件修剪。當探測器方麵比閾值表包含更少的文件,動態文件修剪不觸發。如果一個表隻有幾個文件,它可能是不值得啟用動態文件修剪。你可以找到δ表通過運行的大小描述細節table_name命令,然後看numFiles列。