功能存儲概念

本節描述概念來幫助你使用磚特性存儲和功能表。

請注意

這時,磚特性的商店不支持統一目錄metastore寫作。團結Catalog-enabled工作空間,您可以編寫功能表默認蜂巢metastore。

功能表

功能被組織為功能表。每個表由一個差值表和額外的元數據。

一個功能表必須有一個主鍵。功能特性表通常是計算和更新使用共同的計算功能。

特性表元數據跟蹤表的數據源生成和筆記本工作,創建或寫信給桌子上。

你可以創建標記,並將它們與特性表,便於分組和發現。

時間序列特征表

數據用於訓練模型通常內置的時間依賴關係。構建模型時,您必須考慮隻有特性值直到時間的觀察目標價值。如果你訓練後功能基於數據測量目標的時間戳值,模型的性能會受到影響。

時間序列特征表包含一個時間戳鍵列,確保訓練數據集的每一行表示的最新特性值稱為行的時間戳。您應該使用時間序列特征表特征值隨時間變化時,例如時間序列數據,基於事件的數據,或time-aggregated數據。

當你創建一個時間序列特征表,指定與時間相關的鍵使用timestamp_keys論點。當你使用這使時間點查找create_training_setscore_batch。係統執行的時間戳的加入,使用timestamp_lookup_key你指定。

如果你不使用timestamp_keys的論點,而不是指定一個時間戳列主鍵列不適用,功能存儲時間點邏輯在加入時間戳列。相反,它隻匹配行匹配,而不是一個確切的時間匹配所有行之前時間戳。

離線存儲

離線存儲用於特征發現,模型訓練和批處理推理。它包含物化特性表三角洲表

流媒體

除了批寫道,磚特性存儲支持流媒體。您可以編寫特性值從一個流源特性表,和特性計算代碼可以使用結構化流將原始數據流轉換為特征。

訓練集

訓練集由一組特性和DataFrame包含原始訓練數據,標簽,和主鍵查找功能。您創建的訓練集通過指定特性提取從特色商店,並提供在模型訓練訓練集作為輸入。

看到創建一個訓練數據集例如如何創建和使用一個訓練集。

模型的包裝

機器學習模型訓練使用特性從磚特性存儲保留引用這些特性。在推理時,模型可以從功能存儲檢索特征值。調用者隻需要提供主鍵的功能使用的模型(例如,user_id),檢索所需的所有特征值特征存儲模型。

在批處理推理,從離線存儲和檢索特征值與新數據之前得分。在實時推理,從在線商店中檢索特征值。

包特性的元數據模型,使用FeatureStoreClient.log_model ()