改善客戶體驗與事務濃縮
零售銀行業格局已經發生了巨大的變化在過去五年內開放銀行應用程序的可訪問性,主流采用Neobanks和最近的科技巨頭引入金融服務行業。根據《福布斯》最近的一篇文章千禧一代現在占全球員工總數的75%,和71%聲稱他們“去看牙醫比建議從他們的銀行”。競爭已經從9點到下午5點實體分支網絡贏得了數字精明的消費者越來越沉迷於簡單的觀念,效率和透明度。新一代不再感興趣通用金融部門經理的建議,但要控製自己的財務狀況與個性化的見解,在真正的時間,通過舒適的移動銀行應用程序。為了保持競爭力,銀行必須提供一個引人入勝的移動銀行的經驗,通過個性化的見解,超越了傳統銀行的建議,製定財務目標和報告功能——所有的高級分析地理空間或自然語言處理(NLP)。
這些功能可能特別深刻的考慮到純粹的銀行已經在他們的指尖的數據量。根據2020年的研究《尼爾森報告》每天,大約10億卡交易發生在世界各地(1億交易僅在美國)。10億數據點,每天可以利用來造福消費者,獎勵他們的忠誠和使用他們的數據和更個性化的見解。另一方麵,必須獲得10億數據點,策劃、加工、分類、更符合實際的,需要一種分析環境,同時支持數據和AI和促進合作工程師、科學家和業務分析師。SQL不改善客戶體驗。人工智能。
在這個新的解決方案加速器(公開筆記本報告結束時這個博客),我們證明lakehouse架構使銀行,開放銀行聚合器和付款處理器解決零售銀行業務的核心挑戰:商人分類。通過使用筆記本和業界最佳實踐,我們使我們的客戶能夠與上下文信息豐富交易(品牌、類別),可以用於客戶細分等下遊用例或欺詐預防。beplay体育app下载地址
理解卡交易
信用卡交易的動力是複雜的。每個操作涉及到銷售終端,一個商人,一個付款處理器網關,收購銀行信用卡處理器網絡,發行銀行和消費者帳戶。許多實體參與交易卡的授權和結算,上下文信息從一個商人帶到一個零售銀行是複雜的,有時會誤導和經常反直覺的對最終消費者和需要使用先進的分析技術提取清晰的品牌和商家的信息。首先,任何商家需要達成商戶類別代碼(MCC),一個4位數的號碼用於分類的業務類型的商品或服務提供(見列表)。MCC本身通常是不夠理解任何業務的真實性質(如大型零售商銷售不同的商品),因為它往往是太寬或太具體。
除了一個複雜的分類,MCC有時是不同的銷售終端從一個點到另一個地方,即使相同的商人。僅僅依靠MCC代碼是不夠的足以讓一個卓越的客戶體驗,必須結合其他上下文,例如事務敘事和商人描述完全理解品牌,位置和購進貨物的性質。但這是難題。事務的敘述和商人是一個自由形式的文本描述填寫由商人沒有共同的準則或行業標準,因此要求數據科學方法這數據不一致的問題。在這個解決方案加速器,我們演示文本分類技術等fasttext可以幫助企業更好地理解品牌隱藏在任何事務敘述給出一個參考的數據集的商人。距離是事務描述“星巴克倫敦1233-242-43 2021”公司“星巴克”嗎?
了解一個重要方麵是我們手頭多少數據學習文本模式。事務數據時,遇到一個大的差距是很常見的可用數據不同的商人。這是完全正常的,它是由購物模式的客戶基礎。例如,它是可以預料到的,我們將更容易獲得比街角小店交易僅僅由於亞馬遜的事務交易發生的頻率在這些各自的商人。自然,事務數據將遵循冪律分布(如下代表)的大部分數據來自幾個商人。
我們的模糊字符串匹配方法
接近這個問題從字符串模糊匹配的挑戰就是這麼簡單,更大的部分描述和商人字符串不匹配。任何繩距離將是非常高的,事實上,任何相似性很低。如果我們改變了我們的角呢?有沒有更好的方法來模擬這個問題?我們認為,上述問題將會更好的被文檔建模(自由文本)分類而不是字符串相似性。加速器在這個解決方案中,我們演示fasttext幫助我們有效地解決description-to-merchant翻譯和解鎖高級分析用例。
最近一個流行的方法是將文本數據表示為數值向量,使兩個著名概念出現:word2vec和doc2vec (看博客)。Fasttext帶有它自己的內置邏輯,將文本轉換成向量表示基於兩種方法,cbow和skipgrams (看文檔),根據您的數據的性質,一種表示會表現得更好。我們的重點不是解剖的內部邏輯用於文本向量化,而是實際使用的模型來解決文本分類問題當我們麵對成千上萬的類可以分為(商人)文本。
推廣方法卡交易
數據模型的好處最大化,衛生處理和分層是關鍵!機器學習(ML)與清潔數據簡單的尺度和性能更好。有鑒於此,我們將確保我們的數據分層對商人。我們想確保我們可以提供一個類似的數據量/商業模型借鑒。這將避免這種情況的模型會偏向某些商人僅僅因為消費者支出的頻率。為此我們使用以下代碼:
結果= data.sampleBy (自我.target_column sample_rates)
確保火花sampleBy分層方法,它需要一個列的值會發生分層,以及地層詞典標簽樣本映射。在我們的解決方案中,我們確保任何商人擁有超過100行可用帶安全標簽的數據保存在訓練語料庫。我們也保證零類(未被認識的商人)占10:1比例是由於高訴困惑在交易,我們的模型不能學習。我們都保持零類作為一個有效的分類選項,以避免通貨膨脹的假陽性。另一個同樣有效的方法是調整每個類有一個閾值概率類的我們不再信任車型標簽,默認為“未知的商人”標簽。這是一個更複雜的過程,因此,我們選擇了一個更簡單的方法。您應該隻介紹複雜性毫升和AI如果它帶來明顯的價值。
從清潔的角度來看,我們要確保我們的模型不是由時間扼殺學習無關緊要的數據。這樣的一個例子是日期和金額可能包含在事務的敘述。我們不能提取merchant-level信息基於交易發生的日期。如果我們再加上考慮,商家不遵循相同的標準表示日期時,我們立即得出結論,日期可以安全地刪除這個動作的描述和模型將有助於更有效地學習。為了這個目的,我們有我們的清洗策略基於的信息Kaggle博客。數據清理的參考,我們現在的全部邏輯圖如何我們清洗和標準化的數據。這是一個合乎邏輯的管道這個解決方案的最終用戶可以很容易地修改和/或擴展的行為,其中任何一個步驟和實現定製的經驗。
正確的數據表示後,我們利用MLflow的力量,Hyperopt和Apache火花™訓練fasttext模型與不同的參數。MLflow使我們能夠跟蹤運行許多不同的模型和比較。MLflow的關鍵功能是其豐富的UI,可以比較不同毫升數以百計的模型運行在許多參數和指標:
對於一個參考如何參數化和優化fasttext模型,請參考文檔。在我們的解決方案中,我們使用了train_unsupervised
培訓方法。鑒於商人的數量我們在處理(1000 +),我們意識到我們不能正確比較模型基於一個度量值。生成一個與1000 +類混淆矩陣的性能可能不會帶來預期的簡單解釋。我們已經選擇了一個每百分位精度的方法。我們模型相比,基於性能值準確性,最差最差第25百分位和第五百分位。這給了我們一個了解我們的模型的性能分布在我們的商業空間。
作為我們的解決方案的一部分我們實現了與MLflow fasttext模型的集成,能夠負載模型通過MLflow api和大規模應用的最佳模式通過預先包裝好的火花udf如下代碼:
logged_model =f 'runs: /{run_id}/模型”loaded_model = mlflow.pyfunc.load_model (logged_model)loaded_model_udf = mlflow.pyfunc.spark_udf (火花,model_uri = logged_model result_type =“字符串”)
spark_results = (validation_data.withColumn (“預測”loaded_model_udf (“clean_description”)))
這種程度的簡單應用解決方案是至關重要的。一個可以用幾行代碼改曆史交易數據一旦模型訓練和校準。這幾行代碼解鎖前所未有的客戶數據分析。分析師們終於可以專注於交付複雜先進的數據分析用例流或批處理,如客戶生命周期價值、定價、客戶細分、客戶保持和許多其他分析的解決方案。
性能、性能、性能!
所有這些努力背後的原因很簡單:獲得一個事務濃縮係統,可以自動執行的任務。和一個值得信賴的解決方案在自動運行模式下,表現在高水平/商人。我們有訓練有素的幾百個不同的配置和比較這些模型專注於低表演者商人。我們的第五百分位精度達到最低在93%左右的準確;我們的平均精度達到99%。這些結果給我們信心提出自動化的商家分類以最少的人力監督。
這些結果都是偉大的,但一個問題出現在我的腦海裏。我們overfitted嗎?過度擬合隻是一個問題當我們期望我們模型的泛化,意味著當我們訓練數據隻代表一個非常小的樣本的現實和新到達的數據非常不同於訓練數據。在我們的例子中,我們有很短的文件每個商人相當簡單的語法。另一方麵,fasttext生成ngrams skipgrams,事務的描述,這種方法可以提取有用的知識。這兩個因素結合表明,即使我們這些向量overfit,天生是不包括一些令牌從知識表示,我們將概括。簡單地說,對過度擬合模型是足夠健壯我們的應用程序的上下文中。值得一提的是,所有的指標為模型評價計算在一組400000個事務,這從訓練數據集是不相交的。
這是有用的,如果我們沒有標記的數據集
這是一個很難回答的問題,“是”或“否”。然而,作為我們實驗的一部分,我們已經製定的觀點。與我們的框架,答案是肯定的。我們已經完成幾毫升模型訓練活動與不同數量的標簽行/商人。杠杆MLflow, Hyperopt和火花訓練不同的模型和不同的參數和不同的模型和不同的參數在不同數據大小和交叉引用和比較他們在一套共同的指標。
這種方法使我們回答這個問題:什麼是最小的標記的行數/商人,我需要訓練該模型和我的曆史交易數據分數嗎?答案是:低至50歲,是的,50 !
隻有50記錄/商人,我們保持著99%的平均精度和第五百分位最低性能降低了隻有幾個百分點至85%。另一方麵,100條記錄/商業數據集的結果是91%的準確率最低的第五百分位。這隻表明特定的品牌有更多的困惑的語法描述和可能需要更多的數據。底線是,係統操作在偉大的平均性能和合理的性能邊界情況僅有50行/商人。這使得商家的進入障礙分類非常低。
事務濃縮優越的訂婚
而零售銀行業正處於轉變的基礎上提高消費者的期望在個性化和用戶體驗,銀行和金融機構可以學習大量從其他行業,從批發到零售的消費者參與策略。在媒體行業,像Netflix公司,亞馬遜和穀歌有設置表為新進入者和遺留球員無摩擦,在所有渠道上個性化的體驗。行業已經完全從“內容為王”的經驗,專業的基於用戶偏好和細粒度的部分信息。建立一個個性化的體驗,消費者獲取價值構建信任和確保你仍然是一個選擇的平台在市場擁有無限數量的供應商和消費者的選擇。Beplay体育安卓版本
學習先鋒媒體行業,零售銀行業務的公司,專注於銀行經驗而不是事務數據不僅能夠吸引年輕一代的心靈和思想,但將創建一個移動銀行體驗這樣的人,想回去。在這個模型中以個人客戶,任何新的信用卡交易將產生額外的數據點,可以進一步利用效益最終消費者,推動更多的個性化,更多的客戶互動,更多的交易,等等——所有同時減少生產和不滿。
盡管這裏討論的商家分類技術沒有解決個性化金融的全貌,我們相信這個博客中概述的技術能力是實現這一目標最重要的。一個簡單的UI為客戶提供上下文信息(如上圖)beplay体育app下载地址,而不是一個簡單的SQL轉儲”在一個移動設備將朝著這個轉變的催化劑。
在未來解決方案加速器,我們計劃利用這個能力進一步推動個性化和可行的見解,如客戶細分、消費目標,和行為消費模式(檢測生活事件),學習更多的從我們的終端消費者,因為他們越來越投入,確保這些新見解的增值效益。
在這個加速器中,我們展示了零售銀行需要極大地改變他們的事務數據的方法,從一個OLTP模式對OLAP數據倉庫的方法在數據湖,和需要lakehouse架構應用毫升的產業規模。我們也處理的非常重要的因素進入障礙實現這個解決方案的有關訓練數據量。與我們的方法,進入門檻從未降低(50交易的商人)。
試試以下筆記本磚來加速你的數字的銀行今天和策略聯係我們了解更多關於我們如何幫助客戶提供類似的用例。beplay体育app下载地址