三角洲住表屬性引用

預覽

這個特性是在公共預覽

本文提供了一個參考三角洲生活表JSON設置規範和表屬性數據磚。為更多的細節在使用這些不同屬性和配置,看到下麵的文章:

三角洲生活表管道配置

字段

id

類型:字符串

這個管道全局惟一標識符。係統標識符分配的,不能更改。

的名字

類型:字符串

一個用戶友好的名稱。這個名字可以用來識別管道工作在UI中。

存儲

類型:字符串

位置DBFS和雲存儲在輸出數據和元數據所需的管道執行存儲。表和元數據存儲在子目錄的位置。

存儲沒有指定設置,係統將默認的位置dbfs: /管道/

存儲設置創建一個管道不得更改。

配置

類型:對象

一個可選的設置添加到列表的火花配置集群運行的管道。這些設置由三角洲生活讀表運行時和用於管道通過火花配置查詢。

元素必須被格式化鍵:值對。

類型:數組對象

筆記本的數組包含管道代碼和所需的工件。

集群

類型:數組對象

數組的規範集群運行管道。

如果不指定這個值,管道會自動選擇一個默認集群配置管道。

發展

類型:布爾

一個標誌指示是否運行的管道發展生產模式。

默認值是真正的

通知

類型:數組對象

一個可選的一係列規範郵件通知當管道更新完成後,失敗的事情錯誤,失敗與non-retryable錯誤,或流失敗。

連續

類型:布爾

一個標誌指示是否運行管道不斷。

默認值是

目標

類型:字符串

的名稱數據庫持久化管道輸出數據。配置目標設置允許您查看和查詢的管道輸出數據磚UI。

通道

類型:字符串

版本的三角洲住表運行時使用。支持的值是:

  • 預覽測試你的管道運行時版本即將到來的變化。

  • 當前的使用當前的運行時版本。

通道字段是可選的。默認值是當前的。磚建議使用當前的運行時版本為生產工作負載。

類型字符串

三角洲生活表產品版本運行管道。此設置允許你選擇最好的產品版本基於管道的需求:

  • 核心流攝取工作負載運行。

  • 運行流攝取和變化數據捕獲(CDC)工作負載。

  • 先進的流攝取工作負載運行,疾控中心的工作負載,負載需要三角洲住表預期執行數據質量約束。

字段是可選的。默認值是先進的

光子

類型:布爾

一個標誌指示是否使用光子運行時管道運行。光子是磚高性能火花的引擎。Photon-enabled管道比non-Photon管道宣傳以不同的速度。

光子字段是可選的。默認值是

pipelines.maxFlowRetryAttempts

類型:int

的最大數量嚐試失敗重試前流管道更新發生的事情失敗時。

默認值是2。默認情況下,當事情發生故障,三角洲生活表運行時嚐試運行流三次包括最初的嚐試。

pipelines.numUpdateRetryAttempts

類型:int

嚐試重試的最大數量更新之前沒有更新發生的事情失敗時。運行一個完整的更新重試。

默認值是5。這個參數隻適用於在生產模式下運行觸發更新。沒有重試時管道在開發模式下運行。

三角洲生活表屬性表

除了表屬性的支持三角洲湖,你可以設置下表屬性。

表屬性

pipelines.autoOptimize.managed

默認值:真正的

啟用或禁用自動將這個表的優化。

pipelines.autoOptimize.zOrderCols

默認值:無

一個可選的字符串包含一個以逗號分隔的z值這個表的列名。例如,pipelines.autoOptimize.zOrderCols=“年、月”

pipelines.reset.allowed

默認值:真正的

控製是否允許一個完整的刷新表。

美國疾病控製與預防中心表屬性

下麵的表屬性被添加到控製墓碑管理的行為刪除事件當使用疾病預防控製中心:

表屬性

pipelines.cdc.tombstoneGCThresholdInSeconds

默認值:5分鍾

將這個值設置為匹配的最高預期無序的數據之間的時間間隔。

pipelines.cdc.tombstoneGCFrequencyInSeconds

默認值:60秒

控製頻率墓碑是清理檢查。

看到改變數據獲取與三角洲生活表

管道觸發間隔

您可以指定一個管道觸發間隔為整個三角洲住表管道或聲明的數據集的一部分。看到管道觸發間隔

pipelines.trigger.interval

默認是基於流型:

  • 5秒為流查詢。

  • 一分鍾完成查詢的所有輸入數據時是三角洲來源。

  • 十分鍾完成一些數據源可能non-Delta時查詢。

值是一個數字加上時間單位。以下是有效時間單位:

  • 第二個,

  • 一分鍾,分鍾

  • 小時,小時

  • 一天,

您可以使用單數或複數單位在定義值,例如:

  • {“pipelines.trigger.interval”:“1一小時”}

  • {“pipelines.trigger.interval”:“十秒"}

  • {“pipelines.trigger.interval”:“30第二個“}

  • {“pipelines.trigger.interval”:“1分鍾”}

  • {“pipelines.trigger.interval”:“十分鍾”}

  • {“pipelines.trigger.interval”:“十分鍾”}

集群沒有用戶可設置的屬性

因為δ生活表管理集群生命周期,許多由三角洲集群設置生活表,不能由用戶手動配置。下表列出了這些設置,為什麼他們不能手動設置。

字段

cluster_name

三角洲生活表設置集群的名稱用於運行管道更新。這些名字不能覆蓋。

spark_version

三角洲生活表集群上運行一個自定義的磚運行時版本不斷更新,包括最新的功能。火花的版本與磚的運行時版本的捆綁,不能覆蓋。

autotermination_minutes

因為δ生活表管理集群auto-termination和重用邏輯,集群auto-termination時不能覆蓋。

runtime_engine

雖然你可以控製這一領域通過使光子管道,你不能直接設置這個值。

enable_elastic_disk

這個值是默認啟用δ生活表,不能覆蓋。

effective_spark_version

這個值是由係統自動設置的。

cluster_source

這個領域是係統設定的,隻讀的。

docker_image

因為δ生活表管理集群生命周期,不能使用一個自定義容器管道集群。

workload_type

這個值是係統設定的,不能覆蓋。