基於機器學習項目為零售商和品牌匹配

通過路加福音Bilbro,布萊恩史密斯和Rob獵隼

2021年5月24日在工程的博客

分享這篇文章

項匹配的是在線市場的核心功能。確保一個優化客戶體驗,零售商比較新的和更新的產品信息和現有的清單,以確保一致性和避免重複。在線零售商與他們的競爭對手也比較清單來確定價格和庫存的差異。供應商提供的產品在多個站點可以檢查他們的產品是如何確保一致性的標準。

需要有效的項目匹配肯定不是局限於電子商務。幾十年來,需求信號存儲庫(域)承諾消費產品製造商的能力將補充訂單數據與零售商銷售點和銀團市場數據製定一個更全麵的需求。然而,DSR是有限的價值通過製造商的程度可以解決他們的產品定義和這些產品描述之間的差異在許多零售合作夥伴。

共同的挑戰將這些類型的數據已經在所需的手動工作來匹配不同的數據集。我們很幸運有萬能鑰匙在某些領域,使數據集之間的直接聯係,但在大多數場景並非如此——我們不得不使用專家知識來確定哪些項目有可能對,哪些是不同的。正是因為這一原因,跨各種不同的數據集通常是時間最長的匹配項的步驟在任何複雜的數據項目,這一步必須重複在一個持續的基礎上添加新產品。

大量和持續嚐試標準化產品代碼可以追溯到1970年代強調這一挑戰的普遍性也固執。基於規則和概率(模糊)匹配技術演示軟件的潛力進行合理有效的產品匹配不完美的數據,但通常這些工具是有限的數據支持,他們能夠被定製和擴展能力。隨著機器學習,大數據平台和雲計算,我們有潛力發展這些技巧和克服這些挑戰。Beplay体育安卓版本

計算產品的相似之處

為了說明如何可以做到這一點,讓我們先看一下產品信息如何被用來匹配兩個項目。在這裏,我們有兩個列表,一個abt.com和另一個buy.com,作為Abt-Buy捕獲數據集引用在這裏,已經決心是相同的產品:

abt:電冰箱24“白色內置洗碗機——FDB130WH買:電冰箱FDB130RGS 24”內置的洗碗機(白色)

作為消費者,我們都看的名稱和確定網站描述類似產品。碼,上的細微差異,即FDB130WH FBD130RGS,可能會導致一些混亂,但我們可以查看產品描述,技術規格等網站,以確定這些設備都是相同的。但是我們如何指導計算機做同樣的工作嗎?

首先,我們可能會分裂成單詞的名字,規範詞情況下,刪除任何標點符號,放任何安全地忽略這樣的詞,為治療之前剩下的元素,作為一個unsequenced集合(袋)的單詞。在這裏,我們為匹配的產品,這樣做排序的單詞隻是簡單的視覺比較:

abt:[建立fdb130wh電冰箱,24日,洗碗機,白色)買:[建立fdb130rgs電冰箱,24日,洗碗機,白色)

我們可以看到,大部分單詞都是相同的。唯一的變化在產品代碼,即使如此,這種變化發生在最後的兩個或三個字符。如果我們把這些單詞分解成字符序列,(即。基於字符的字格),我們可以更容易地比較詳細的單詞:

abt:(星期五,鑽機、igi gid,艾達,戴,空氣,憤怒,再保險公司身上,db1、十三區最,130年30 w, 0 wh wh,…]
買:[星期五、操縱、igi gid,艾達,戴,空氣,憤怒,再保險公司身上,db1、十三區最,130年30 r,該公司,gs,…]

每個序列然後得分的名稱和他們的整體內發生的頻率出現在所有產品名稱與non-represented序列被得分為零:

星期五,鑽機、igi gid,艾達,戴,空氣,憤怒,再保險公司身上,db1、十三區最,130年30 w 30 r, 0 wh wh,該公司,gs,……
abt: 0.17, 0.19, 0.17, 0.13, 0.13, 0.17, 0.18, 0.20, 0.12, 0.14, 0.17, 0.18, 0.19, 0.02, 0.00, 0.13, 0.18, 0.00, 0.00,……
買:0.17,0.19,0.17,0.13,0.13,0.17,0.18,0.20,0.12,0.14,0.17,0.18,0.19,0.00,0.03,0.00,0.00,0.15,0.17,……

被稱為TF-IDF得分,這自然語言處理(NLP)技術允許我們我們的字符串比較的問題轉換成一個數學問題。這兩個字符串之間的相似現在可以計算的平方之和的對齊值之間的差異,大約0.359這兩個字符串。相比其他潛在的匹配對這些產品,這個值應該是最低的,說明實際匹配的可能性。

提出的一係列步驟絕不是詳盡的產品名稱。特定的模式在一個特定領域的知識可能會鼓勵其他的使用,更加成熟,數據準備,但最簡單的方法常常是令人驚訝的有效的。

時間序列的文本如產品描述,基於字格TF-IDF得分和文本嵌入分析文本塊的聯想詞可能提供更好的評分方法。圖像數據,類似的方法嵌入也可以應用,允許更多的信息納入考慮。零售商如沃爾瑪已經證明,任何有用的信息在確定產品相似性可能使用。簡單的將這些信息轉化為一個數值表示的距離相似或相關措施可以派生。

處理數據爆炸

由於建立了依據確定的相似之處,我們的下一個挑戰是有效地比較各個產品。要理解這一挑戰的規模,考慮比較相對較小的數據集10000 t對一組不同的10000的產品。需要評估產品對1億進行了詳盡的比較。雖然不是一個不可能的挑戰(尤其是考慮到雲資源的可用性),更有效的快捷方式可以讓我們關注那些對彼此更相似。

Locality-Sensitive哈希(激光衝徊化)提供了一種快速、有效的方法。激光衝徊化過程是通過隨機細分產品,產品具有類似數字分數可能駐留在同一組。的隨機特性細分意味著兩個非常相似的產品可能會發現自己在不同的團體,但通過多次重複這一過程,我們增加的概率兩個非常相似的項目將在同一組至少一次土地。這都是我們需要考慮進一步評估候選人。

識別匹配

與我們的注意力集中在產品最有可能匹配,我們轉向實際比賽的決心。利用相似性得分每個產品派生屬性考慮,我們現在尋求那些分數轉換成匹配概率。

這不是一個簡單的過程,應用已知的公式和權衡每個屬性到一個單一的預測。相反,我們必須依靠ML算法學習expert-matched雙並確定應該如何結合這些分數到達一個概率。典型的模型開發運動開始於一組有限的產品手動為匹配,評估候選人的產生對產品的使用在這個練習,然後任意數量的迭代訓練二進製分類算法直到一個合理的結果。