監控指標表

預覽

這個特性是在公共預覽

本頁麵描述指標表由磚Lakehouse監控。儀表板由信息監控,看到的使用monitor儀表板

監控磚表上運行時,它會創建或更新兩個指標表:概要指標表和一個漂移指標表。

  • 概要指標表包含彙總數據為每一列和每一個組合的時間窗口,切片,和分組列。為InferenceLog分析,分析表還包含模型精度指標。

  • 漂移指標表包含數據,跟蹤分布改變指標。漂移表可用於可視化或預警數據的變化,而不是特定的值。以下類型的漂移計算:

    • 連續漂移比較前麵的時間窗口的窗口。連續漂移隻是計算聚合後如果存在一個連續時間窗口根據指定的粒度。

    • 基線漂移比較窗口基線分布由基準表。基線漂移隻是如果提供了基準表計算。

指標表位於哪裏

監控指標表保存到{output_schema}, {table_name} _profile_metrics{output_schema}, {table_name} _drift_metrics,地點:

  • {output_schema}指定的目錄和模式output_schema_name

  • {table_name}是被監視的表的名稱。

監控統計數據是如何計算的

每個統計計算和度量指標表中指定的時間間隔(稱為“窗口”)。為快照分析,時間窗口是一個時間點對應的時間refresh_metrics被稱為。為TimeSeriesInferenceLog分析,在指定的時間窗口是基於粒度create_monitor中的值timestamp_col中指定的profile_type論點。

指標總是計算整個表。此外,如果您提供切片表達式,指標計算為每個數據塊定義為一個表達式的值。

例如:

slicing_exprs = [“col_1”,“col_2>10”)

生成以下片:一個col_2>10,一個用於col_2< =10,一個為每一個獨特的價值col1

片識別指標表的列名slice_keyslice_value。在這個例子中,一片主要是“col_2 > 10”和相應的值將“真”和“假”。相當於整個表slice_key=零,slice_value=零。片是由一片鑰匙。

指標計算所有可能的組織定義的時間窗口和片鍵和值。此外,對於InferenceLog分析、指標計算為每個模型id。細節,明白了列生成的表的模式

額外的統計模型準確性監控(InferenceLog分析)

額外的統計計算InferenceLog分析。

  • 如果兩個計算模型質量label_colprediction_col被提供。

  • 片自動創建基於不同值的model_id_col

  • 對於分類模型,公平和偏差統計計算出片有一個布爾值。

查詢分析和漂移指標表

你可以直接查詢指標表。下麵的例子是基於InferenceLog分析:

選擇窗口。啟動、column_name計數,num_nulls、distinct_count frequent_items census_monitor_db。adult_census_profile_metrics model_id = 1 -約束到版本1和slice_key為空——看看總指標在整個數據和由window.start column_name =“income_predicted”秩序

列生成的表的模式

基本表中的每一列的指標表包含一行分組列的每個組合。與每一行相關聯的列的列所示column_name

基於多個列的度量模型精度等指標,column_name被設置為:表

為指標,使用分組列如下:

  • 時間窗口

  • 粒度(TimeSeriesInferenceLog分析)

  • 日誌類型——輸入表或基準表

  • 片鍵和值

  • 模型id (InferenceLog分析)

對於漂移指標,使用額外的分組列如下:

  • 比較時間窗口

  • 漂移類型(相比以前的窗口或比較基準表)

度規的模式表如下所示,也顯示了磚Lakehouse監測API參考文檔

概要指標表模式

下麵的表顯示了這個概要文件的模式指標表。指標不適用於連續的,相應的細胞是null。

列名

類型

描述

分組列

窗口

結構體。請參閱下麵的[1]。

時間窗口。

粒度

字符串

窗口時間,設定的粒度參數。

model_id_col

字符串

可選的。僅用於InferenceLog分析類型。

log_type

字符串

表用來計算指標。基線或輸入。

slice_key

字符串

片的表情。零違約,所有數據。

slice_value

字符串

切片的價值表達。

column_name

字符串

列主要的表的名稱。:表是一個特殊的名字指標適用於整個表,如模型的準確性。

data_type

字符串

引發的數據類型column_name

logging_table_commit_version

int

忽視。

指標列——彙總統計

長整型數字

非空值的數量。

num_nulls

長整型數字

null值的數量column_name

avg

算術平均值的列,沒有碰到null。

分位數

數組<雙>

1000分位數的數組。請參閱下麵的[2]。

distinct_count

長整型數字

不同值的數量column_name

最小值

最小值的column_name

馬克斯

最大的價值column_name

stddev

標準偏差的column_name

num_zeros

長整型數字

0的數量column_name

num_nan

長整型數字

NaN值的數量column_name

min_size

數組或結構的最小大小column_name

max_size

數組或結構的最大大小column_name

avg_size

平均大小的數組或結構column_name

min_len

最小長度的字符串和二進製值column_name

max_len

字符串和二進製值的最大長度column_name

avg_len

平均長度的字符串和二進製值column_name

frequent_items

結構體。請參閱下麵的[1]。

前100名最頻繁發生的項目。

non_null_columns

數組<字符串>

至少有一個非空值的列列表。

中位數

中值的column_name

percent_null

null值的百分比column_name

percent_zeros

百分比的值是0column_name

percent_distinct

百分比值是不同的column_name

指標列——分類模型的準確性[3]

accuracy_score

模型的準確性,計算(數量的正確預測/總數的預測),忽略null值。

confusion_matrix

結構體。請參閱下麵的[1]。

精度

結構體。請參閱下麵的[1]。

回憶

結構體。請參閱下麵的[1]。

f1_score

結構體。請參閱下麵的[1]。

指標列——回歸模型精度[3]

mean_squared_error

之間的均方誤差prediction_collabel_col

root_mean_squared_error

根之間的均方誤差prediction_collabel_col

mean_average_error

意味著之間的平均誤差prediction_collabel_col

mean_absolute_percentage_error

平均絕對百分比誤差prediction_collabel_col

r2_score

平方之間的分數prediction_collabel_col

指標列——公平和偏見[4]

predictive_parity

測量兩組是否有平等的所有預測精度類。label_col是必需的。

predictive_equality

測量兩組是否有平等的假陽性率在所有預測類。label_col是必需的。

equal_opportunity

措施兩組是否有平等的召回所有預測類。label_col是必需的。

statistical_parity

測量兩組是否有平等的錄取率。錄取率在這裏被定義為經驗概率預測是一定階級,所有預測類。

[1]格式的結構confusion_matrix,精度,回憶,f1_score:

列名

類型

窗口

struct <開始:時間戳,結束:時間戳>

frequent_items

數組< struct <項目:字符串,數:長整型數字> >

confusion_matrix

struct <預測:字符串,標簽:字符串,數:長整型數字>

精度

struct < one_vs_all:map < string,雙>,宏:翻倍,權重:雙>

回憶

struct < one_vs_all:map < string,雙>,宏:翻倍,權重:雙>

f1_score

struct < one_vs_all:map < string,雙>,宏:翻倍,權重:雙>

[2]示例代碼檢索50百分位:選擇element_at(分位數,int(大小(分位數)+ 1)/ 2))作為p50選擇分位數[500]

[3]隻顯示如果監視器InferenceLog分析類型和兩個label_colprediction_col被提供。

[4]隻顯示如果監視器InferenceLog分析類型和problem_type分類

漂移指標表模式

下麵的表顯示了模式漂移指標表。漂移表僅僅是如果提供了基準表生成的,或者連續時間窗口存在聚合後根據指定的粒度。

列名

類型

描述

分組列

窗口

struct <開始:時間戳,結束:時間戳>

時間窗口。

window_cmp

struct <開始:時間戳,結束:時間戳>

比較窗口drift_type連續

drift_type

字符串

基線或連續。漂移指標是否與之前的時間窗口或基準表。

粒度

字符串

窗口時間,設定的粒度參數。

model_id_col

字符串

可選的。僅用於InferenceLog分析類型。

slice_key

字符串

片的表情。零違約,所有數據。

slice_value

字符串

切片的價值表達。

column_name

字符串

列主要的表的名稱。:表是一個特殊的名字指標適用於整個表,如模型的準確性。

data_type

字符串

引發的數據類型column_name

指標列——漂移

差異計算當前窗口——比較窗口。

count_delta

上的差異

avg_delta

上的差異avg

percent_null_delta

上的差異percent_null

percent_zeros_delta

上的差異percent_zeros

percent_distinct_delta

上的差異percent_distinct

non_null_columns_delta

struct <補充道:int,缺失:int >

列數與任何增加或減少在非空值。

chi_squared_test

struct <統計:翻倍,pvalue:雙>

卡方檢驗漂移的分布。

ks_test

struct <統計:翻倍,pvalue:雙>

KS漂移測試的分布。計算僅供數字列。

tv_distance

全變差的漂移距離分布。

l_infinity_distance

L-infinity漂移距離的分布。

js_distance

Jensen-Shannon漂移距離的分布。計算出分類列。

wasserstein_distance

漂移使用瓦瑟斯坦距離度量兩個數字之間的分布。

population_stability_index

指標來比較兩個數值之間的偏差分布使用人口穩定指數指標。有關詳細信息,請參閱下麵的[4]。

[4]人口穩定指數的輸出是一個數字值,代表著不同的兩種分布。範圍是[0,正無窮)。PSI < 0.1意味著沒有顯著的人口變化。PSI < 0.2,表明適度的人口變化。PSI > = 0.2意味著重大的人口變化。