Databricks功能商店
本頁解釋了什麼是特征庫,它提供了什麼好處,以及Databricks特征庫的具體優勢。
Databricks Feature Store庫僅在Databricks Runtime for Machine Learning上可用,並可通過Databricks筆記本和工作流訪問。
請注意
此時,Feature Store不支持寫入Unity Catalog亞存儲。在支持Unity catalog的工作空間中,你隻能將特性表寫入默認的Hive metastore中。
什麼是功能商店?
特征存儲是一個集中的存儲庫,它使數據科學家能夠找到和共享特征,並確保用於計算特征值的相同代碼用於模型訓練和推斷。
機器學習使用現有的數據來建立一個模型來預測未來的結果。在幾乎所有情況下,原始數據都需要預處理和轉換,然後才能用於構建模型。這個過程被稱為特征化或特征工程,這個過程的輸出被稱為特征——模型的構建塊。
開發功能是複雜且耗時的。另一個複雜的問題是,對於機器學習來說,需要在模型訓練時進行特征化計算,然後在使用模型進行預測時再次進行特征化計算。這些實現可能不是由同一個團隊或使用相同的代碼環境完成的,這可能會導致延遲和錯誤。此外,組織中的不同團隊通常有類似的特性需求,但可能不知道其他團隊已經完成的工作。特性存儲就是為解決這些問題而設計的。
為什麼使用Databricks Feature Store?
Databricks Feature Store與Databricks的其他組件完全集成。
可發現性。Feature Store UI(可以從Databricks工作區訪問)允許您瀏覽和搜索現有的特性。
血統。當您使用feature Store創建特性表時,用於創建特性表的數據源將被保存並可訪問。對於特性表中的每個特性,您還可以訪問使用該特性的模型、筆記本、作業和端點。
集成模型評分和服務。當您使用Feature Store中的特性來訓練模型時,該模型是用特性元數據打包的。當您使用該模型進行批量評分或在線推理時,它會自動從Feature Store中檢索特征。調用者不需要知道它們,也不需要包含邏輯來查找或連接特性來獲取新數據。這使得模型部署和更新更加容易。
時間點查找。Feature Store支持需要時間點正確性的時間序列和基於事件的用例。
開始使用功能商店
請參閱以下文章來開始使用Feature Store:
看到一個例如筆記本電腦這說明了創建特征、更新特征以及將特征用於模型訓練和批量推理的過程。
參見參考資料Feature Store Python API.
了解使用特性表.
使用時間序列具有表和時間點查找功能檢索某一特定時間的最新特征值,用於訓練或對模型進行評分。
了解將功能發布到在線功能商店用於實時服務和自動功能查找。
更多的信息
有關使用Feature Store的最佳實踐的更多信息,請下載特色商店綜合指南.