Databricks功能商店

本頁解釋了什麼是特征庫,它提供了什麼好處,以及Databricks特征庫的具體優勢。

Databricks Feature Store庫僅在Databricks Runtime for Machine Learning上可用,並可通過Databricks筆記本和工作流訪問。

請注意

此時,Feature Store不支持寫入Unity Catalog亞存儲。在支持Unity catalog的工作空間中,你隻能將特性表寫入默認的Hive metastore中。

什麼是功能商店?

特征存儲是一個集中的存儲庫,它使數據科學家能夠找到和共享特征,並確保用於計算特征值的相同代碼用於模型訓練和推斷。

機器學習使用現有的數據來建立一個模型來預測未來的結果。在幾乎所有情況下,原始數據都需要預處理和轉換,然後才能用於構建模型。這個過程被稱為特征化或特征工程,這個過程的輸出被稱為特征——模型的構建塊。

開發功能是複雜且耗時的。另一個複雜的問題是,對於機器學習來說,需要在模型訓練時進行特征化計算,然後在使用模型進行預測時再次進行特征化計算。這些實現可能不是由同一個團隊或使用相同的代碼環境完成的,這可能會導致延遲和錯誤。此外,組織中的不同團隊通常有類似的特性需求,但可能不知道其他團隊已經完成的工作。特性存儲就是為解決這些問題而設計的。

為什麼使用Databricks Feature Store?

Databricks Feature Store與Databricks的其他組件完全集成。

  • 可發現性。Feature Store UI(可以從Databricks工作區訪問)允許您瀏覽和搜索現有的特性。

  • 血統。當您使用feature Store創建特性表時,用於創建特性表的數據源將被保存並可訪問。對於特性表中的每個特性,您還可以訪問使用該特性的模型、筆記本、作業和端點。

  • 集成模型評分和服務。當您使用Feature Store中的特性來訓練模型時,該模型是用特性元數據打包的。當您使用該模型進行批量評分或在線推理時,它會自動從Feature Store中檢索特征。調用者不需要知道它們,也不需要包含邏輯來查找或連接特性來獲取新數據。這使得模型部署和更新更加容易。

  • 時間點查找。Feature Store支持需要時間點正確性的時間序列和基於事件的用例。

開始使用功能商店

請參閱以下文章來開始使用Feature Store:

更多的信息

有關使用Feature Store的最佳實踐的更多信息,請下載特色商店綜合指南