新解決方案加速器:客戶實體解析

構建一個ML-based Customer360 Zingg

通過路加福音Bilbro,聲音的Goyal,布萊恩史密斯和咪咪Qunell

2022年8月4日在Beplay体育安卓版本平台的博客

分享這篇文章

檢查我們的新客戶實體解析方案加速器更多的細節和下載的筆記本。

現在越來越多的客戶希望個性化交互作為他們beplay体育app下载地址的購物體驗的一部分。是否瀏覽應用程序內,接收提供了通過電子郵件或在線廣告所追求,越來越多的人希望他們的品牌互動認識到個人的需求和喜好,相應地裁縫訂婚。事實上,76%的消費者更有可能考慮購買一個品牌擬人化了。組織追求卓越omnichannel,這些相同的高期望通過digitally-assisted擴展到店內體驗員工互動,提供專門的麵對麵服務等等。在一個顧客選擇的時代,越來越多的零售商越來越個性化的訂婚的消息成為吸引和留住客戶花的基礎。

正確個性化交互的關鍵是獲得可行的見解從每一點可以收集客戶的信息。自身生成的數據通過銷售交易、網站瀏覽,產品評級和調查、客戶調查和電話支持中心、第三方數據從數據聚合器和購買在線追蹤器,甚至zero-party客戶自己提供的數據形成一個360度的客戶視圖。beplay体育app下载地址在討論客戶- 360平台往往集中在體積和各種數據的組織必須工作和數據科學的範圍Beplay体育安卓版本用例經常應用於他們,現實是離不開客戶- 360視圖建立公共客戶身份,客戶記錄在不同的數據集聯係在一起。

匹配的客戶記錄是具有挑戰性的

從表麵上看,確定公共客戶身份跨係統的想法似乎很簡單。但不同數據源之間不同的數據類型,是罕見的一個獨特的標識符是用於支持記錄鏈接。相反,大多數數據源都有自己的標識符是翻譯成基本名稱和地址信息來支持cross-dataset記錄匹配。撇開客戶屬性的挑戰,因此數據,可能會改變隨著時間的推移,自動匹配名稱和地址可以非常具有挑戰性由於非標準格式和通用數據解釋和輸入錯誤。

例如我們的一個作者的名字:布萊恩。這個名字已經被記錄在不同的係統布萊恩,布萊恩,瑞安,拜倫甚至大腦。如果布萊恩住在主要街123號,他可能會發現這個地址輸入主要街123號,123年主要聖或123年主要在各種係統中,所有這一切都是完全有效的,即使不一致。

人工翻譯,記錄與客戶的共同變化的名稱和公認一個地址的變化很容易匹配。但與數以百萬計的客戶身份大多數零售組織都麵臨著,我們需要依靠軟件自動化這個過程。大多數第一次往往捕捉人類知識已知的變化規則和模式匹配的記錄,但這往往會導致大量的和有時不可預知的網絡軟件的邏輯。為了避免這種情況,越來越多的組織麵對的挑戰基於變量屬性的匹配客戶發現自己把機器學習。beplay体育app下载地址

機器學習提供了一個可伸縮的方法

機器學習(ML)實體解析方法,文本屬性名稱,地址,電話號碼等轉換成數值可以用來量化表征之間的相似程度,任何兩個屬性值。模型訓練來權衡這些分數的相對重要性決定如果一條匹配的記錄。

例如,輕微的名字的拚寫差異可以沒有那麼重要如果一個完美匹配之間找到一個電話號碼。在某些方麵,這種方法反映了人類自然傾向時使用檢查記錄,同時更可伸縮的和一致的應用在大型數據集。

說,我們培訓這樣一個模型的能力取決於我們獲得準確的標記的訓練數據,即。對由專家進行審查並貼上一個記錄匹配或不匹配。最終,數據我們知道是正確的,我們的模型可以從早期階段的大多數ML-based實體解析方法,一個相對較小的子集對可能適合彼此組裝,注釋和美聯儲對模型算法。這是一個耗時的運動,但如果處理得當,該模型學習反映人類的評論者的判斷。

訓練模型在手,我們的下一個挑戰是有效地定位記錄對值得比較。一個簡單的方法來記錄比較會比較每個記錄的每一個另一個數據集。雖然簡單,這種蠻力方法結果的比較,計算得到迅速失控。

更聰明的方法是認識到類似的記錄將會有類似的數值分數分配給它們的屬性。通過限製比較這些記錄在一個給定的距離(基於這些分數的差異),我們可以快速定位價值的比較,即。候選人對。同樣,這類似於人類的直覺我們迅速消除兩個記錄的詳細比較,如果這些記錄的名字托馬斯。和威廉地址在完全不同的州或省。

一起將這兩個元素的方法,我們現在有一個方法來快速識別記錄成對比較和價值的一種手段得分每一對匹配的可能性。這些成績提出了概率在0.0和1.0之間,捕獲模型的信心,兩個記錄表示同一個人。極端的概率範圍,我們通常可以定義閾值高於或低於我們隻是接受模型的判斷和繼續前進。但是在中間,我們隻剩下一套(希望小)的對人類專家再次需要做出最終判斷。

Zingg簡化ML-Based實體解析

領域實體解析的技術,這些技術的變化和發展的最佳實踐,研究人員發現有效識別質量匹配在不同的數據集。而不是維持所需的專業知識應用最新的學術知識的挑戰,如客戶身份決議,許多組織依賴庫封裝這些知識來構建他們的應用程序和工作流。

就是這樣一個圖書館Zingg,一個開源庫結合最新的智能候選人對一代和pair-scoring ML-based方法。麵向建設的自定義工作流,Zingg的上下文中提供了這些功能普遍采用的步驟如訓練數據標簽賦值,模型訓練數據集重複數據刪除和(cross-dataset)記錄匹配。

建立本地Apache火花應用,Zingg尺度以及將這些技術應用於企業級的數據集。組織可以使用Zingg磚等結合平台提供後端human-in-the-middle自動化工作流應用程序的大部Beplay体育安卓版本分實體解析工作和現在數據專家更易於管理的邊界情況對來解釋。作為一個主動學習解決方案,模型可以接受再培訓,利用這額外的人工輸入提高未來的預測,進一步減少病例的數量需要專家審查。

看到這是如何工作的感興趣?那麼,請一定要檢查磚客戶實體解析方案加速器。在這個加速器,我們展示客戶實體解析的最佳實踐可以應用利用Zingg和磚刪除處理記錄代表500萬人。通過提供一步一步的指示後,用戶可以了解這些技術提供的積木可以組裝,使自己的企業級客戶實體解析的工作流應用程序。

免費試著磚

開始