工程特性

對機器學習功能工程

特性工程,也稱數據預處理,是將原始數據轉化為的過程特性,可用於開發的機器學習模型。本主題描述特性工程的主要概念和ML生命周期管理中發揮的作用。

特性,在機器學習中,輸入數據用於訓練模型。他們是一些實體的屬性,將學習模型。原始數據通常之前必須處理它可以用作輸入為ML模式。好的特性工程使模型開發的過程更有效率並導致模型更簡單、更靈活、更準確。

工程特性是什麼?

特性工程改造的過程和豐富的數據,提高機器學習算法的性能使用這些數據用於訓練模型。

特性工程包括步驟擴展或正常化等數據,編碼非數字數據(比如文本或圖像),通過時間或聚合數據實體,加入來自不同數據源的數據,甚至從其他模型轉移知識。這些轉換的目標是提高機器學習算法的能力學習的數據集,從而做出更準確的預測。

操作特性存儲

特性的工程為什麼重要?

特性工程很重要,因為以下幾個原因。首先,正如前麵提到的,機器學習模型有時不能操作原始數據,所以數據必須轉換成數字形式模型可以理解。這可能涉及到文本或圖像數據轉換成數字形式,或創建聚合特性,比如客戶的平均交易值。

有時相關特性的機器學習問題可能存在跨多個數據源,因此有效的工程特性包括加入這些數據源一起創建一個可用的數據集。這允許您使用所有可用的數據來訓練你的模型,可以提高其精度和性能。

另一個常見的場景是其他模型的輸出和學習有時會被重用的形式特征的新問題,使用一個過程稱為轉移學習。這允許您利用獲得的知識從先前的模型來提高性能的一種新的模式。轉移學習可以特別有用在處理大型、複雜的數據集,它是不切實際的從頭訓練模型。

有效的工程特性還允許可靠的特征在推理時,當模型被用來預測新數據。這是很重要的,因為在推理時使用的特性必須在培訓時使用一樣的功能,為了避免“在線/離線傾斜,“預測計算時使用的功能不同於那些用於培訓。

工程不同於其他數據轉換功能怎麼樣?

特性工程的目標是創建一個數據集,可以訓練來構建一個機器學習模型。許多工具和技術用於數據轉換也用於工程的特性。

由於功能的重點工程是開發一個模型,有幾個要求,不存在與所有功能轉換。例如,您可能想要重用功能跨多個模型或跨團隊在你的組織中。這需要一個健壯的方法發現功能。

一旦功能重用,你將需要一種方法來跟蹤位置和特性是如何計算的。這就是所謂的血統。可再生的特性為機器學習計算是特別重要的,因為該功能不僅必須計算訓練模型,還必須以完全相同的方式重新計算模型用於推理。

有效的特征工程所帶來的好處是什麼?

擁有一個有效的特征工程管道意味著更健壯的管道建模,並最終更可靠和性能模型。改善的功能使用培訓和推理都可以有一個令人難以置信的對模型質量的影響,所以更好的特性意味著更好的模型。

從不同的角度來看,有效的特征工程也鼓勵重用,不僅節省從業者時間而且提高模型的質量。這個功能重用是重要的有兩個原因:它節省時間,和擁有強勁定義特性有助於防止您的模型訓練和推理之間使用不同的特性數據,通常會導致“在線/離線”傾斜。

需要什麼工具特性工程?

一般同樣的工具,用於數據工程可以用於功能工程,作為兩者之間的轉換是很常見的。這通常需要一些數據存儲和管理係統,進入標準開放轉換語言(SQL、Python、火花等),以及獲得某種類型的計算運行轉換。

然而,有一些額外的工具,可以實現功能工程特定的Python庫的形式,可以幫助機器學習具體數據轉換,如嵌入文本或圖像,或在一個炎熱的編碼分類變量。也有一些開源項目,幫助跟蹤特性,模型使用。

數據版本控製是工程的一個重要工具特性,因為模型通常可以訓練數據集,已經被修改。有適當的數據版本控製允許你複製一個給定的數據模型,而自然的發展隨著時間的推移。

存儲功能是什麼?

功能存儲是一個工具用來解決工程特點的挑戰。存儲功能是一個集中的存儲庫為整個組織的特性。數據科學家可以發現和共享的特性和使用特性存儲跟蹤特性的血統。存儲特性也保證了相同的特征值是用於培訓和推理。這種可再生的特性計算機器學習尤為重要,因為功能不僅必須計算訓練模型,還必須以完全相同的方式重新計算模型用於推理。

為什麼使用磚特性存儲?

磚特性存儲與其他組件完全集成的磚。您可以使用磚筆記本的開發代碼來創建特性和構建模型基於這些特性。當你服務模型與磚,模型自動查找特性值特性存儲推理。磚特性的商店還提供特色商店本文中描述的好處:

  • 可發現性。功能存儲UI,可以從磚的工作空間,讓您瀏覽和搜索現有的功能。
  • 血統。當您創建一個功能表與磚特性存儲,用於創建的數據源特性表保存和訪問。對於每個功能特性表,你也可以訪問模型,筆記本、就業和端點使用功能。

此外,磚特性存儲提供了:

  • 得分和服務集成模型。當你從磚使用功能特性存儲訓練模型,模型包裝功能的元數據。當你使用批處理得分或在線推理模型,它會自動從磚特性存儲檢索功能。調用者不需要知道或包含邏輯來查找或加入特性來取得新的數據。這使得模型更容易部署和更新。
  • 時間點查找。磚特性存儲支持時間序列和基於事件的用例要求時間點的正確性。

額外的資源

回到術語表
Baidu
map