監控指標表
預覽
這個特性是在公共預覽。
本頁麵描述指標表由磚Lakehouse監控。儀表板由信息監控,看到的使用monitor儀表板。
監控磚表上運行時,它會創建或更新兩個指標表:概要指標表和一個漂移指標表。
概要指標表包含彙總數據為每一列和每一個組合的時間窗口,切片,和分組列。為
InferenceLog
分析,分析表還包含模型精度指標。漂移指標表包含數據,跟蹤分布改變指標。漂移表可用於可視化或預警數據的變化,而不是特定的值。以下類型的漂移計算:
連續漂移比較前麵的時間窗口的窗口。連續漂移隻是計算聚合後如果存在一個連續時間窗口根據指定的粒度。
基線漂移比較窗口基線分布由基準表。基線漂移隻是如果提供了基準表計算。
指標表位於哪裏
監控指標表保存到{output_schema}, {table_name} _profile_metrics
和{output_schema}, {table_name} _drift_metrics
,地點:
{output_schema}
指定的目錄和模式output_schema_name
。{table_name}
是被監視的表的名稱。
監控統計數據是如何計算的
每個統計計算和度量指標表中指定的時間間隔(稱為“窗口”)。為快照
分析,時間窗口是一個時間點對應的時間refresh_metrics
被稱為。為TimeSeries
和InferenceLog
分析,在指定的時間窗口是基於粒度create_monitor
中的值timestamp_col
中指定的profile_type
論點。
指標總是計算整個表。此外,如果您提供切片表達式,指標計算為每個數據塊定義為一個表達式的值。
例如:
slicing_exprs = [“col_1”,“col_2>10”)
生成以下片:一個col_2>10
,一個用於col_2< =10
,一個為每一個獨特的價值col1
。
片識別指標表的列名slice_key
和slice_value
。在這個例子中,一片主要是“col_2 > 10”和相應的值將“真”和“假”。相當於整個表slice_key
=零,slice_value
=零。片是由一片鑰匙。
指標計算所有可能的組織定義的時間窗口和片鍵和值。此外,對於InferenceLog
分析、指標計算為每個模型id。細節,明白了列生成的表的模式。
額外的統計模型準確性監控(InferenceLog
分析)
額外的統計計算InferenceLog
分析。
如果兩個計算模型質量
label_col
和prediction_col
被提供。片自動創建基於不同值的
model_id_col
。對於分類模型,公平和偏差統計計算出片有一個布爾值。
查詢分析和漂移指標表
你可以直接查詢指標表。下麵的例子是基於InferenceLog
分析:
選擇窗口。啟動、column_name計數,num_nulls、distinct_count frequent_items census_monitor_db。adult_census_profile_metrics model_id = 1 -約束到版本1和slice_key為空——看看總指標在整個數據和由window.start column_name =“income_predicted”秩序
列生成的表的模式
基本表中的每一列的指標表包含一行分組列的每個組合。與每一行相關聯的列的列所示column_name
。
基於多個列的度量模型精度等指標,column_name
被設置為:表
。
為指標,使用分組列如下:
時間窗口
粒度(
TimeSeries
和InferenceLog
分析)日誌類型——輸入表或基準表
片鍵和值
模型id (
InferenceLog
分析)
對於漂移指標,使用額外的分組列如下:
比較時間窗口
漂移類型(相比以前的窗口或比較基準表)
度規的模式表如下所示,也顯示了磚Lakehouse監測API參考文檔。
概要指標表模式
下麵的表顯示了這個概要文件的模式指標表。指標不適用於連續的,相應的細胞是null。
列名 |
類型 |
描述 |
---|---|---|
分組列 |
||
窗口 |
結構體。請參閱下麵的[1]。 |
時間窗口。 |
粒度 |
字符串 |
窗口時間,設定的 |
model_id_col |
字符串 |
可選的。僅用於 |
log_type |
字符串 |
表用來計算指標。基線或輸入。 |
slice_key |
字符串 |
片的表情。零違約,所有數據。 |
slice_value |
字符串 |
切片的價值表達。 |
column_name |
字符串 |
列主要的表的名稱。 |
data_type |
字符串 |
引發的數據類型 |
logging_table_commit_version |
int |
忽視。 |
指標列——彙總統計 |
||
數 |
長整型數字 |
非空值的數量。 |
num_nulls |
長整型數字 |
null值的數量 |
avg |
雙 |
算術平均值的列,沒有碰到null。 |
分位數 |
|
1000分位數的數組。請參閱下麵的[2]。 |
distinct_count |
長整型數字 |
不同值的數量 |
最小值 |
雙 |
最小值的 |
馬克斯 |
雙 |
最大的價值 |
stddev |
雙 |
標準偏差的 |
num_zeros |
長整型數字 |
0的數量 |
num_nan |
長整型數字 |
NaN值的數量 |
min_size |
雙 |
數組或結構的最小大小 |
max_size |
雙 |
數組或結構的最大大小 |
avg_size |
雙 |
平均大小的數組或結構 |
min_len |
雙 |
最小長度的字符串和二進製值 |
max_len |
雙 |
字符串和二進製值的最大長度 |
avg_len |
雙 |
平均長度的字符串和二進製值 |
frequent_items |
結構體。請參閱下麵的[1]。 |
前100名最頻繁發生的項目。 |
non_null_columns |
數組<字符串> |
至少有一個非空值的列列表。 |
中位數 |
雙 |
中值的 |
percent_null |
雙 |
null值的百分比 |
percent_zeros |
雙 |
百分比的值是0 |
percent_distinct |
雙 |
百分比值是不同的 |
指標列——分類模型的準確性[3] |
||
accuracy_score |
雙 |
模型的準確性,計算(數量的正確預測/總數的預測),忽略null值。 |
confusion_matrix |
結構體。請參閱下麵的[1]。 |
|
精度 |
結構體。請參閱下麵的[1]。 |
|
回憶 |
結構體。請參閱下麵的[1]。 |
|
f1_score |
結構體。請參閱下麵的[1]。 |
|
指標列——回歸模型精度[3] |
||
mean_squared_error |
雙 |
之間的均方誤差 |
root_mean_squared_error |
雙 |
根之間的均方誤差 |
mean_average_error |
雙 |
意味著之間的平均誤差 |
mean_absolute_percentage_error |
雙 |
平均絕對百分比誤差 |
r2_score |
雙 |
平方之間的分數 |
指標列——公平和偏見[4] |
||
predictive_parity |
雙 |
測量兩組是否有平等的所有預測精度類。 |
predictive_equality |
雙 |
測量兩組是否有平等的假陽性率在所有預測類。 |
equal_opportunity |
雙 |
措施兩組是否有平等的召回所有預測類。 |
statistical_parity |
雙 |
測量兩組是否有平等的錄取率。錄取率在這裏被定義為經驗概率預測是一定階級,所有預測類。 |
[1]格式的結構confusion_matrix
,精度
,回憶
,f1_score
:
列名 |
類型 |
---|---|
窗口 |
|
frequent_items |
|
confusion_matrix |
|
精度 |
|
回憶 |
|
f1_score |
|
[2]示例代碼檢索50百分位:選擇element_at(分位數,int(大小(分位數)+ 1)/ 2))作為p50…
或選擇分位數[500]…
。
[3]隻顯示如果監視器InferenceLog
分析類型和兩個label_col
和prediction_col
被提供。
[4]隻顯示如果監視器InferenceLog
分析類型和problem_type
是分類
。
漂移指標表模式
下麵的表顯示了模式漂移指標表。漂移表僅僅是如果提供了基準表生成的,或者連續時間窗口存在聚合後根據指定的粒度。
列名 |
類型 |
描述 |
---|---|---|
分組列 |
||
窗口 |
|
時間窗口。 |
window_cmp |
|
比較窗口drift_type |
drift_type |
字符串 |
基線或連續。漂移指標是否與之前的時間窗口或基準表。 |
粒度 |
字符串 |
窗口時間,設定的 |
model_id_col |
字符串 |
可選的。僅用於 |
slice_key |
字符串 |
片的表情。零違約,所有數據。 |
slice_value |
字符串 |
切片的價值表達。 |
column_name |
字符串 |
列主要的表的名稱。 |
data_type |
字符串 |
引發的數據類型 |
指標列——漂移 |
差異計算當前窗口——比較窗口。 |
|
count_delta |
雙 |
上的差異 |
avg_delta |
雙 |
上的差異 |
percent_null_delta |
雙 |
上的差異 |
percent_zeros_delta |
雙 |
上的差異 |
percent_distinct_delta |
雙 |
上的差異 |
non_null_columns_delta |
|
列數與任何增加或減少在非空值。 |
chi_squared_test |
|
卡方檢驗漂移的分布。 |
ks_test |
|
KS漂移測試的分布。計算僅供數字列。 |
tv_distance |
雙 |
全變差的漂移距離分布。 |
l_infinity_distance |
雙 |
L-infinity漂移距離的分布。 |
js_distance |
雙 |
Jensen-Shannon漂移距離的分布。計算出分類列。 |
wasserstein_distance |
雙 |
漂移使用瓦瑟斯坦距離度量兩個數字之間的分布。 |
population_stability_index |
雙 |
指標來比較兩個數值之間的偏差分布使用人口穩定指數指標。有關詳細信息,請參閱下麵的[4]。 |
[4]人口穩定指數的輸出是一個數字值,代表著不同的兩種分布。範圍是[0,正無窮)。PSI < 0.1意味著沒有顯著的人口變化。PSI < 0.2,表明適度的人口變化。PSI > = 0.2意味著重大的人口變化。