介紹磚Lakehouse監控
預覽
這個特性是在公共預覽版在以下區域:一來就
,us-east-1
,us-east-2
,us-west-2
,ap-southeast-2
。注冊訪問,填寫這張表格。
磚Lakehouse監控可以監控所有的表在您的帳戶。您還可以使用它來跟蹤性能的機器學習模型和model-serving端點通過監測推理表由模型的輸出。
磚Lakehouse監控計算並存儲度量數據質量,數據分布和漂移。它可以幫助你回答問題如下:
數據完整性是什麼樣子,它如何隨時間變化的?例如,什麼是零或零值的分數在當前數據,並增加了嗎?
數據的統計分布是什麼樣子,以及它如何隨時間變化的?例如,一個數值列的第90個百分位是什麼?或者,什麼是分類列中的值的分布,和它如何不同於昨天?
之間有漂移當前數據和已知的基線,或連續時間窗口之間的數據?
什麼統計分布或漂移或切片數據的一個子集的樣子?
毫升模型輸入和預測如何轉移?
隨著時間的推移模型性能趨勢如何?模型版本執行比版本B嗎?
此外,磚Lakehouse監控允許您控製的時間粒度的觀察和設置自定義指標。
需求
以下是需要使用磚Lakehouse監控:
全民必須啟用您的工作區目錄,你必須能夠訪問數據磚SQL。
隻有δ支持管理和外部表監測。
請注意
磚Lakehouse監控使用serverless計算工作。你的賬戶是計算與這些工作相關的宣傳。
為什麼監測數據是重要的
從你的數據畫出有用的見解,你必須有信心你的數據的質量。監測數據提供了定量措施,幫助您跟蹤並確認數據的質量和一致性。當你發現變化表的數據分布或相應模型的性能,表由磚Lakehouse監測可以捕獲和提醒你改變,可以幫助你確定原因。
磚Lakehouse監測是如何工作的
在磚監控表,您創建一個監視器連接到桌子上。監控性能的機器學習模型中,您將監視存儲模型推理表的輸入和相應的預測。
磚Lakehouse監測提供了以下類型的分析:時間序列,快照和推理。
概要文件類型 |
描述 |
---|---|
時間序列 |
比較數據分布跨越時間窗口。您指定的粒度計算度量(例如,1天)來比較你的數據分布會隨著時間而改變。這種類型的配置文件需要一個時間戳列。 |
快照 |
與時間序列相比,概要文件快照監視器表的完整內容如何隨時間變化。指標計算表中所有數據,並監控表在每次刷新監控狀態。 |
推理 |
這個表包含預測輸出值由機器學習分類或回歸模型。這個表包含一個時間戳,ID模型,模型的輸入(特性),一個列包含模型的預測,以及可選的列包含獨特觀察ID和地麵實況標簽。它也可能包含元數據,如人口統計信息,不是作為模型的輸入,而是公平和偏見的可能有用的調查或其他監測。一個推理剖麵類似於時間序列資料,也包括質量度量模型。 |
本節簡要描述了輸入表使用的磚Lakehouse監測和它產生的指標表。圖中顯示了輸入之間的關係表,指標表,監視器和儀表板。
主要表和基準表
除了要監視的表,稱為“主要表”,您可以選擇指定一個表作為參考基準測量漂移,或隨時間的變化值。基準表是非常有用的,當你有一個樣本,你希望你的數據是什麼樣子的。然後計算漂移的想法是相對於預期的數據值和分布。
基線表應該包含一個數據集,反映了預期的輸入數據的質量,統計分布而言,單個的列分布,缺失值,和其他特征。它應該監控表的匹配模式。表的例外是時間戳列使用時間序列或者推理概要文件。如果列失蹤在主表或基線表,監控使用的最優啟發式計算輸出指標。
對於使用快照概要文件的監控,基線表應該包含的快照數據的分布代表一個可接受的質量標準。例如,在年級分配數據,一個可能設置基線前幾堂課成績均勻分布。
為監控使用時間序列資料,代表時間的基準表應該包含數據窗口(s),數據分布代表一個可接受的質量標準。例如,在天氣數據,您可能將基線設置為一個星期,月或年的溫度接近預期的正常溫度。
對於使用一個推理概要文件的監視器,一個不錯的選擇對於一個基線數據用於訓練或被監控模型進行了驗證。通過這種方式,用戶可以提醒當數據相對於漂流模型訓練和驗證。這個表應該包含相同的功能列作為主要的表,而且應該是一樣的model_id_col
這是指定主表的InferenceLog聚合數據一致。理想情況下,測試或驗證設置用來評估模型應該被用來確保類似的模型質量指標。