三角洲表屬性引用

湖儲備δ表屬性入手三角洲。。這些屬性可能有特定的含義,並影響行為時,這些屬性集。

表屬性和SparkSession交互屬性怎麼樣?

δ表屬性設置每個表。如果一個屬性設置在一個表上,那麼這是緊隨其後的是默認的設置。

有些表屬性關聯SparkSession總是優先於表屬性的配置。一些例子包括spark.databricks.delta.autoCompact.enabledspark.databricks.delta.optimizeWrite.enabled汽車壓實和優化配置,打開寫SparkSession層麵而不是表級別。磚建議使用table-scoped配置對於大多數工作負載。

對每一個增量表屬性可以設置一個默認值為新表使用SparkSession配置,覆蓋內置的默認。這個設置隻影響到新表,不覆蓋或替換現有表的屬性設置。中使用的前綴SparkSession不同屬性中使用的配置表,如下表所示:

三角洲湖相依

SparkSession相依

三角洲。<設計>

spark.databricks.delta.properties.defaults。<設計>

例如,設置delta.appendOnly=真正的財產所有新三角洲湖表中創建一個會話,設置如下:

火花δ屬性違約appendOnly=真正的

修改現有表的表屬性,使用設置TBLPROPERTIES

三角洲表屬性

可用三角洲表屬性包括以下:

財產

delta.appendOnly

真正的δ表擴展。如果擴展,不能刪除現有記錄,和現有的值不能被更新。

看到三角洲表屬性引用

數據類型:布爾

默認值:

delta.autoOptimize.autoCompact

汽車對於三角洲湖自動優化為δ表的布局文件。

看到汽車壓實對磚三角洲湖

數據類型:布爾

默認值:(一)

delta.autoOptimize.optimizeWrite

真正的為三角洲湖自動優化的布局為δ表文件中寫道。

看到優化為三角洲湖磚

數據類型:布爾

默認值:(一)

delta.checkpoint.writeStatsAsJson

真正的對於三角洲湖寫文件檢查點JSON格式的數據統計數據列。

看到在檢查站管理列級統計

數據類型:布爾

默認值:真正的

delta.checkpoint.writeStatsAsStruct

真正的三角洲湖寫文件統計檢查點的結構格式stats_parsed列和寫分區值的結構partitionValues_parsed

看到在檢查站管理列級統計

數據類型:布爾

默認值:(一)

delta.columnMapping.mode

是否支持增量表列和列映射相應的拚花列使用不同的名稱。

看到重命名和刪除列與三角洲湖列映射

數據類型:DeltaColumnMappingMode

默認值:沒有一個

delta.dataSkippingNumIndexedCols

列數為三角洲湖為跳過數據收集統計信息。的值1意味著所有列的收集統計信息。更新這個屬性並不會自動收集統計信息;相反,它重新定義了三角洲表的統計模式。具體地說,它改變了未來的行為統計信息收集(如在附加和優化)以及數據跳過(如忽視列統計超出這個數字,即使存在這樣的統計數據)。

看到數據不與z順序索引三角洲湖

數據類型:Int

默認值:32

delta.deletedFileRetentionDuration

最短的時間前三角洲湖保持邏輯刪除數據文件刪除。這是為了防止失敗後在陳舊的讀者緊湊排列或分區覆蓋。

這個值應該足夠大,以確保:

  • 它大於可能的持續時間最長的一份工作,如果你運行真空當有並發訪問三角洲讀者或作者表。

  • 如果你運行一個流媒體查詢從表中讀取,查詢不停止超過這個值。否則,查詢可能無法啟動,因為它必須讀舊文件。

看到配置數據保留時間旅行

數據類型:CalendarInterval

默認值:時間間隔1

delta.enableChangeDataFeed

真正的使改變數據提要。

看到使改變數據提要

數據類型:布爾

默認值:

delta.isolationLevel

一個事務的程度必須隔絕的修改由並發事務。

有效的值可序列化的WriteSerializable

看到隔離級別和寫衝突磚

數據類型:字符串

默認值:WriteSerializable

delta.logRetentionDuration

三角洲的曆史表保存多長時間。

每次寫的一個檢查站,三角洲湖自動清理日誌條目超過保留時間間隔。如果將此屬性設置為一個足夠大的價值,許多日誌條目被保留。這應該不會影響性能,操作日誌是常數時間。曆史上的操作是平行但日誌大小增加將變得更加昂貴。

看到配置數據保留時間旅行

數據類型:CalendarInterval

默認值:時間間隔30.

delta.minReaderVersion

最低要求協議版本為讀者,讓讀者閱讀從δ表。

看到磚三角洲湖管理功能的兼容性如何?

數據類型:Int

默認值:1

delta.minWriterVersion

作家的最低要求協議版本為一個作家可以寫這個δ表。

看到磚三角洲湖管理功能的兼容性如何?

數據類型:Int

默認值:2

delta.randomizeFilePrefixes

真正的三角洲湖來生成一個隨機前綴的文件路徑,而不是分區信息。

數據類型:布爾

默認值:

delta.randomPrefixLength

delta.randomizeFilePrefixes被設置為真正的的字符數,三角洲湖為隨機生成前綴。

數據類型:Int

默認值:2

delta.setTransactionRetentionDuration

最短的時間內新快照將保留事務標識符(例如,SetTransaction看到。當一個新的快照事務標識符大於或等於此屬性指定的持續時間,快照認為過期而忽略它。的SetTransaction標識符是用於使寫的冪等。看到冪等表在foreachBatch寫道獲取詳細信息。

數據類型:CalendarInterval

默認值:(一)

delta.targetFileSize

目標文件大小的字節或更高的單位文件調優。例如,104857600(字節)或100 mb

看到配置三角洲湖控製數據文件大小

數據類型:字符串

默認值:(一)

delta.tuneFileSizesForRewrites

真正的總是使用較低的文件大小為三角洲上的所有數據布局優化操作表。

不要調到較低的文件大小,也就是說,防止自動激活。

看到配置三角洲湖控製數據文件大小

數據類型:布爾

默認值:(一)