分析家族係統表

預覽

這個特性是在公共預覽

本文概述的兩個家族係統表。這些係統表的基礎上統一目錄的數據沿襲特性,允許您以編程方式查詢譜係數據決策和報告。

有兩個家族係統表:

  • system.access.table_lineage

  • system.access.column_lineage

請注意

這兩個譜係表代表所有讀/寫事件的一個子集,因為它捕獲血統並不總是可能的。記錄時才發出血統可以推斷。

表血統表

表家族係統表包含一個記錄每個讀或寫事件統一目錄表或路徑。這包括但不限於工作運行,筆記本運行,儀表盤更新讀或寫事件。

列血統表

列血統表不包括事件沒有來源。例如,如果您使用顯式值插入一列,它不是被俘。如果你讀一個列,是否你寫輸出。列血統不支持三角洲生活表。

家族係統表模式

家族係統表使用以下模式。不包括表傳承模式source_column_nametarget_column_name

列名

數據類型

描述

例子

account_id

字符串

磚的ID賬戶。

7 af234db - 66 d7 - 4 - db4 bbf0 - 956098224879

metastore_id

字符串

統一目錄metastore的ID。

5 a31ba44 - bbf4 - 4174 bf33 e1fa078e6765

workspace_id

字符串

工作空間的ID

123456789012345

entity_type

字符串

的實體類型家族事務從被捕。這個值是筆記本,工作,管道,DBSQL_DASHBOARD,DBSQL_QUERY,或

筆記本

entity_id

字符串

實體的ID家族事務從被捕。如果entity_type,entity_id

  • 筆記本:23098402394234

  • 工作:23098402394234

  • 磚SQL查詢:e9cd8a31 de2f - 4206 adfa f6605d68d88——4

  • 磚SQL儀表板:e9cd8a31 de2f - 4206 adfa f6605d68d88——4

  • 管道:e9cd8a31 de2f - 4206 adfa f6605d68d88——4

entity_run_id

字符串

ID來描述的獨特運行的實體,或。這對每個實體不同類型:

  • 筆記本:command_run_id

  • 工作:job_run_id

  • 磚SQL查詢:query_run_id

  • 磚SQL儀表板:query_run_id

  • 管道:pipeline_update_id

如果entity_type,entity_run_id

  • 筆記本:23098402394234

  • 工作:23098402394234

  • 磚SQL查詢:e9cd8a31 de2f - 4206 adfa f6605d68d88——4

  • 磚SQL儀表板:e9cd8a31 de2f - 4206 adfa f6605d68d88——4

  • 管道:e9cd8a31 de2f - 4206 adfa f6605d68d88——4

source_table_full_name

字符串

由三部分組成的名字來識別源表。

catalog.schema.table

source_table_catalog

字符串

源表的目錄。

目錄

source_table_schema

字符串

源表的模式。

catalog.schema

source_table_name

字符串

源表的名稱。

source_path

字符串

雲存儲位置的源表,或者直接從雲存儲路徑如果是閱讀。

s3: / / my-sample-bucket / 7 af234db - 66 d7 - 4 - db4 bbf0 - 956098224879 /表/ 956098224879 c5 - 97 - c6 - 4 -提供- b920 ca8d30ee80eb

source_type

字符串

源的類型。這個值是,路徑,視圖,或STREAMING_TABLE

source_column_name

字符串

源列的名稱。

日期

target_table_full_name

字符串

由三部分組成的名字來識別目標表。

catalog.schema.table

target_table_catalog

字符串

目標表的目錄。

目錄

target_table_schema

字符串

目標表的模式。

catalog.schema

target_table_name

字符串

目標表的名稱。

target_path

字符串

雲存儲位置的目標表

s3: / / my-sample-bucket / 7 af234db - 66 d7 - 4 - db4 bbf0 - 956098224879 /表/ 956098224879 c5 - 97 - c6 - 4 -提供- b920 ca8d30ee80eb

target_type

字符串

目標的類型。這個值是,路徑,視圖,或流媒體

target_column_name

字符串

目標列的名稱。

日期

created_by

字符串

的用戶生成這個血統。這可能是一個磚用戶名、磚服務主體的ID,係統用戶,或如果用戶信息不能被捕獲。

crampton.rods.com

event_time

時間戳

時間戳血統時生成的。

2023 - 06 - 20 - t19:47:21.194 + 0000

event_date

日期

血統時生成的日期。這是一個分區的列。

2023-06-20

閱讀譜係係統表

注意下麵的譜係分析係統表時注意事項:

  • entity_type,磚支持三角洲生活表,筆記本,工作,磚的SQL查詢和儀表板。不支持事件從其他實體。

  • 如果你看到的entity_type作為,這意味著沒有磚實體參與活動。例如,它可能是一個JDBC查詢的結果或從一個用戶點擊進入樣本數據選項卡中數據磚UI。

  • 確定事件是一個讀或寫,您可以查看源類型和目標類型。

    • 隻讀:源類型不是null,但目標類型為空。

    • 隻寫:目標類型不是null,但源類型為空。

    • 讀和寫:源類型和目標類型不為空。

家族係統表的例子

作為一個例子的血統是記錄在係統表,這是一個例子查詢緊隨其後的是血統記錄查詢創建:

創建取代car_features作為選擇*,三機一體+in2作為premium_feature_setcar_features_exterior加入car_features_interior使用(id,模型);

的記錄system.access.table_lineage看起來像:

entity_type

entity_id

source_table_name

target_table_name

created_by

event_time

筆記本

27080565267

car_features_exterior

car_features

crampton.com

2023 - 01 - 25 - t16:19:58.908 + 0000

筆記本

27080565267

car_features_interior

car_features

crampton.com

2023 - 01 - 25 - t16:19:58.908 + 0000

的記錄system.access.column_lineage看起來像:

entity_type

entity_id

source_table_name

target_table_name

source_column_name

target_column_name

event_time

筆記本

27080565267

car_features_interior

car_features

三機一體

premium_feature_set

2023 - 01 - 25 - t16:19:58.908 + 0000

筆記本

27080565267

car_features_interior

car_features

in2

premium_feature_set

2023 - 01 - 25 - t16:19:58.908 + 0000

請注意

並不是所有血統列在上麵的例子所示。完整的模式,見上麵傳承模式