功能存儲概念
本節描述概念來幫助你使用磚特性存儲和功能表。
請注意
這時,磚特性的商店不支持統一目錄metastore寫作。團結Catalog-enabled工作空間,您可以編寫功能表默認蜂巢metastore。
功能表
功能被組織為功能表。每個表由一個差值表和額外的元數據。
一個功能表必須有一個主鍵。功能特性表通常是計算和更新使用共同的計算功能。
特性表元數據跟蹤表的數據源生成和筆記本工作,創建或寫信給桌子上。
你可以創建標記,並將它們與特性表,便於分組和發現。
時間序列特征表
數據用於訓練模型通常內置的時間依賴關係。構建模型時,您必須考慮隻有特性值直到時間的觀察目標價值。如果你訓練後功能基於數據測量目標的時間戳值,模型的性能會受到影響。
時間序列特征表包含一個時間戳鍵列,確保訓練數據集的每一行表示的最新特性值稱為行的時間戳。您應該使用時間序列特征表特征值隨時間變化時,例如時間序列數據,基於事件的數據,或time-aggregated數據。
當你創建一個時間序列特征表,指定與時間相關的鍵使用timestamp_keys
論點。當你使用這使時間點查找create_training_set
或score_batch
。係統執行的時間戳的加入,使用timestamp_lookup_key
你指定。
如果你不使用timestamp_keys
的論點,而不是指定一個時間戳列主鍵列不適用,功能存儲時間點邏輯在加入時間戳列。相反,它隻匹配行匹配,而不是一個確切的時間匹配所有行之前時間戳。
離線存儲
離線存儲用於特征發現,模型訓練和批處理推理。它包含物化特性表三角洲表。
流媒體
除了批寫道,磚特性存儲支持流媒體。您可以編寫特性值從一個流源特性表,和特性計算代碼可以使用結構化流將原始數據流轉換為特征。
訓練集
訓練集由一組特性和DataFrame包含原始訓練數據,標簽,和主鍵查找功能。您創建的訓練集通過指定特性提取從特色商店,並提供在模型訓練訓練集作為輸入。
看到創建一個訓練數據集例如如何創建和使用一個訓練集。