跳轉到主要內容
Beplay体育安卓版本平台的博客

宣布磚的一般可用性特性

第一個特性協同設計與數據存儲和MLOps平台Beplay体育安卓版本
分享這篇文章

今天,我們很高興宣布磚特性的商店一般可用(GA) !在這篇文章中,我們探討磚特性的商店,第一個特性協同設計與一個端到端的數據存儲和MLOps平台,提供數據團隊定義的能力,探索和重用機器學習功能,建立訓練數據集,為批推理檢索特征值,低延遲網店和發布功能。Beplay体育安卓版本

快速回顧:一個特性是什麼?

在機器學習中,特性是一個屬性——或可測量的特征——做出相關預測。例如,在機器學習模型試圖預測公路交通模式,一天的時間,一天的星期,和吞吐量的汽車都可以被認為是功能。然而,現實世界的數據需要大量的預處理,爭吵,和轉換成為機器學習應用程序可用。例如,您可能想要刪除高度相關的輸入數據或分析語言喂食之前,數據到你的模型作為一個特性。的過程使原始數據機learning-ready稱為工程特性。

挑戰的工程特性

特性工程是複雜和耗時。隨著組織構建和迭代更多的機器學習模型,它變得越來越重要,早已建好的網絡下部特性可以發現,共享和重用。好的feature-reuse實踐可以保存數據團隊周。但是一旦特性被重用,關鍵是他們真實的性能是密切跟蹤。通常,一個特性計算中使用的培訓可能偏離一個用於生產,導致預測的偏差,導致質量退化模型。也是家族建立的關鍵特性——跟蹤模型是使用什麼功能和數據進入這些特性。

我們的許多客戶告訴我們,beplay体育app下载地址一個好的功能開發平台可以大大加速模型開發時間,消除重複數據管道,提高數據質量,數據治理提供幫助。Beplay体育安卓版本

磚特性的商店

第一,磚特性存儲是協同設計與流行的開源框架三角洲湖MLflow。三角洲湖作為一個開放的數據層的特色商店,和MLflow格式可以封裝交互特性存儲在模型包,簡化部署和版本控製的模型。建立在這些獨特的優勢磚特性存儲提供以下主要優點:

  • 發現和重用的功能在你的選擇的工具:磚特性存儲整個組織UI可以幫助數據科學團隊受益於彼此的工作,減少功能重複。磚上的功能表功能存儲實現為三角洲表。這個開放數據lakehouse架構允許組織部署特性存儲作為所有功能的中央樞紐,開放和被磚工作區和第三方工具的安全訪問。
  • 消除在線/離線傾斜:通過包裝MLflow模型中的特征信息,磚特性存儲自動化功能查找模型生命周期的所有階段:在模型訓練,批處理和在線推理。這將確保特性用於模型推理和模型訓練經曆了完全相同的轉換,消除常見的失效模式服務的實時模型。
  • 自動化的血統追蹤:作為一個統一的數據和人工智能平台的集成元件存儲數據磚特性是唯一能夠捕獲完整的譜係圖:從數據源的功能、模型和推理Beplay体育安卓版本終端消費。譜係圖還包括每一點使用的版本的代碼。這有助於強大lineage-based發現和治理。數據科學家可以找到的特性,已經在計算原始數據感興趣。數據安全工程師可以確定功能是否可以更新或刪除取決於任何活動模型消耗的特性。

磚特性存儲用戶界麵可以幫助數據團隊發現,共享和重用的特性。

beplay体育app下载地址客戶贏得Lakehouse特色商店

成百上千的顧客已經部署磚beplay体育app下载地址特性存儲授權生產的機器學習的過程。等客戶beplay体育app下载地址通過,這導致了30%,增加了開發人員的生產力和減少數據處理的成本超過25%。

  • 通過:“磚特性存儲使我們能夠創建一個健壯的和穩定的環境來創建和重用特性模型。這使得我們的數據科學家和分析師更有效率,因為他們不再需要浪費時間將數據轉化為功能每次都從頭開始。”
    經理——Cezar Steinz MLOps通過
  • 百威英博:“商店已經加快了我們從單片磚特性,不透明的機器學習管道,靈活、模塊化的管道,促進我們數據資產的可重用性和透明度。它已經幫助我們快速規模數據科學能力以及團結的數據工程師和分析師都與一個共同的來源功能工程和數據轉換”。
    -克裏斯托弗·斯通的數據工程總監百威英博

有什麼新鮮事嗎?

GA版本還包括各種各樣的令人興奮的新功能。

時間序列特征表和時間點連接

(AWS,Azure,GCP)

最常見的一種類型的數據存儲在特性存儲時間序列數據。也是最需要小心處理的數據類型。輕微錯位的數據點在時間維度加入導致數據泄漏的未來時間序列侵蝕模型性能的方式並不總是容易被檢測到。手動編程之間的連接特性與不同的滑動時間窗口需要強烈的專注和細致的對細節的關注。

磚特性的商店會刪除這個負擔通過提供對時間序列數據的內置支持。數據科學家可以簡單地顯示功能表列的時間維度和照顧其餘功能存儲api。在模型訓練,該數據集將被建使用一組正確的連接。在批處理推理,打包MLflow模型將執行時間點查找。在線服務,該功能存儲隻優化存儲通過發布的最新值時間序列和自動到期的舊值。

讓我們說明是多麼容易從時間序列特征表創建一個訓練數據集使用新特性存儲api的產品推薦模型。首先,我們將創建一個表從PySpark時序特性user_features_dataframeevent_time列作為一個時間維度。

databricks.feature_store進口FeatureStoreClient
              fs = FeatureStoreClient ()fs.create_table (name =“advertisement_team.user_features”,鍵=“user_id”,timestamp_keys =“event_time”,features_df = user_features_dataframe,)

接下來,我們將創建一個通過加入訓練數據訓練數據集raw_clickstream從時間序列特征表dataframe 2特性。

databricks.feature_store進口FeatureLookup
              feature_lookups = [FeatureLookup (table_name =“advertisement_team.user_features”,feature_names = [“purchases_30d”,“purchases_1d”),lookup_key =“user_id”,timestamp_lookup_key =“ad_impression_time”)]
              training_dataset = fs.create_training_set (raw_clickstream,feature_lookups = feature_lookups,標簽=“ad_clicked”,)

training_dataset包含優化的連接,保證正確的行為。這都是需要創建一個訓練數據集與數據磚特性存儲api,並開始培訓與任何毫升框架模型。

NoSQL在線商店

(AWS)

除了各種各樣的SQL數據庫已經支持作為功能服務的在線商店,商店現在支持AWS DynamoDB磚特性。對於出版時間序列特征表,您可以發布與生存時間,以便DynamoDB陳舊的功能會自動從在線商店到期。支持Azure宇宙DB快到了。

數據管道健康監測

(AWS,Azure,GCP)

UI特性存儲監測數據管道產生的狀態如果它運行失效功能表,並通知用戶。這有助於防止中斷和數據提供了更好的見解科學家他們找到的質量特性的特性。

了解更多關於磚特性存儲

得到更多的熟悉這個電子書商店與特性:全麵指導特色商店

把它兜風!檢查磚機器學習免費試用雲的選擇得到特性存儲

深入研究磚的特性文檔

看看這個可怕的用例通過和技術主管與客戶特性存儲:關於特色商店


學分
我們想承認的貢獻幾個人幫助的旅程從構思到GA:克萊門斯Mewald,保羅•Ogilvie Avesh辛格Aakrati Talati, Traun萊頓,瞿Zhidong,尼娜,可可歐陽,賈斯汀,迪夫Gupta,卡羅爾太陽,泰勒湯利,安德裏亞·克雷斯。我們還要感謝邢陳和帕特裏克·溫德爾的支持在這個旅程。

免費試著磚

相關的帖子

看到所有Beplay体育安卓版本平台的博客的帖子
Baidu
map