聲譽風險:提高業務能力和培養快樂的客戶建立一個風險分析引擎beplay体育app下载地址
2020年10月26日 在工程的博客
聲譽風險為何重要?
“風險管理”一詞時,金融服務機構(FSI)見過指導和框架從巴塞爾資本要求的標準。但是,這些指南提到聲譽風險和多年來組織缺乏一個明確的方法來管理和測量非金融聲譽風險等風險。鑒於最近談話已經對環境的重要性,社會和治理(ESG),公司必須橋reputation-reality差距,確保流程來適應不斷變化的信念和期望從利益相關者和客戶。beplay体育app下载地址
對金融機構、信譽無疑是其最重要的資產。例如,高盛(Goldman Sachs)的著名商業原則指出:“我們的資產是我們的人民、資本和聲譽。如果任何這些都減少,最後是最難恢複”。以商業銀行為例,品牌在消費者投訴和反饋能夠管理法律、商業和聲譽風險比他們的競爭對手。美國銀行家發表這篇文章這re-iterates非金融風險、聲譽風險等關鍵因素對FSIs地址在一個快速變化的景觀。
贏得客戶的信任的過程通常需要利用大量的數據通過多個不同的渠道我與問題相關的見解可能造成負麵影響一個品牌的聲譽。盡管培養快樂的客戶數據的重要性,大多數組織難以師一個平台,解決了基本的數據隱私相關的挑戰,規模和模型管理beplay体育app下载地址通常出現在金融服務行業。Beplay体育安卓版本
在這篇文章中,我們將展示如何利用磚的力量的統一數據分析平台,解決這些挑戰,解鎖的見解,並啟動補救行動。Beplay体育安卓版本我們將會看到三角洲湖這是一個開源的數據存儲層,可靠性和性能湖泊周圍,很容易就讓合規GDPR和CCPA法規是否結構化數據和非結構化數據。機器學習運行時和管理MLflow也是磚統一分析平台的一部分,我們在這篇博客,使科學家和業務分析師利用流行的開源數據機器學習和治Beplay体育安卓版本理框架來構建和部署先進的機器學習模型。聲譽風險的這種方法使FSIs衡量品牌認知和彙集了多個利益相關者協同工作來推動更高水平的客戶滿意度和信任。beplay娱乐ios
這篇文章引用筆記本涵蓋多個數據工程和數據科學的挑戰,必須有效地解決現代化聲譽風險管理實踐:
- 使用三角洲湖實時攝取匿名客戶投訴
- 探索大規模客戶反饋使用考拉
- 利用人工智能和開放源碼,使積極的風險管理
- 民主化AI風險和宣傳團隊使用SQL和商業智能(BI) /機器學習(ML)報告
利用雲存儲
對象存儲是一個恩賜給組織尋求公園海量數據更便宜的成本相比傳統的數據倉庫。但是,這帶有操作開銷。當數據到達快速卷,管理這些數據成為一個巨大的挑戰往往腐敗和不可靠的數據點導致不一致,很難正確在稍後的時間點。
這是許多FSIs的主要難點已經開始在一個人工智能開發解決方案,使之旅更快的見解和獲得更多的數據被收集。聲譽風險管理要求主要努力組織測量客戶滿意度和品牌認知。采用數據+人工智能方法保護消費者的信任需要基礎設施,能夠支持大量的客戶數據存儲在一個安全的方式,確保任何個人身份信息(PII)是利用,和完全符合pci dss的監管。而獲取和存儲數據僅僅是開始,對數以百萬計的投訴進行大規模勘探和建築模型,提供規定性的見解是成功實現的關鍵。
作為一個統一的數據分析平台,磚不僅允許攝入和處理大量的數Beplay体育安卓版本據,也允許用戶AI -大規模應用於揭示關於聲譽和客戶的見解看法。在這篇文章中,我們將攝取的數據消費金融保護局(CFPB)和構建數據管道,以更好地探索產品反饋消費者使用三角洲湖和考拉API。開源庫將用於構建和部署毫升模型以分類和測量客戶投訴嚴重程度在不同的產品和服務。通過統一的批處理和流媒體投訴,可以實時分類和路由到適當的宣傳團隊,導致更好的管理的投訴和更大的客戶滿意度。
建立黃金數據標準
磚已經利用所有的雲供應商所提供的安全工具,Apache SparkTM和三角洲湖提供額外的改進,如數據隔離和模式執行維護和保護數據及時的質量。我們將使用火花閱讀投訴數據通過使用模式和持續三角洲湖。在這個過程中,我們還提供一條不良記錄由於模式不匹配,造成數據損壞或語法錯誤到一個單獨的位置,然後可以調查後的一致性。
df = spark.read.option (“頭”,“真正的”).option (“分隔符”,”、“).option (“引用”,”“”).option(“逃離”、“”“).option (“badRecordsPath”,“/ tmp / complaints_invalid”). schema(模式). csv (“/ tmp / complaints.csv”)
眾所周知,敏感數據如PII是一個主要的威脅,增加了企業的攻擊表麵。Pseudonymization以及酸事務執行基於功能和數據保留時間,幫助我們維護數據的合規使用三角洲湖時基於特定列的操作。然而,這就變成了一個真正的挑戰與非結構化數據,每個投訴可能是一個記錄從一個音頻電話,網絡聊天,電子郵件和包含個人信息,如客戶的姓和名,更不用說對消費者被遺忘(比如GDPR合規)。在下麵的示例中,我們演示了如何組織可以利用自然語言處理(NLP)技術匿名化高度結構化的記錄而保留其語義價值(即取代提及名稱應該保護消費者投訴的潛在意義)。
像寬大的使用開源庫,組織可以提取特定的實體(如客戶和代理的名字,社會安全號碼(SSN),帳號和其他PII(如名稱在下麵的例子中)。
在下麵的代碼中,我們展示了一個簡單的匿名化策略基於自然語言處理技術可以作為啟用用戶定義函數(UDF)。
defanonymize_record(原來,nlp):醫生= nlp(原始)為X在doc.ents:如果(X。label_ = =“人”):原始= original.replace (X.text,“John Doe”)返回原始@pandas_udf (“字符串”)def匿名化(csi:迭代器(pd.Series))- >迭代器(pd.Series):#僅加載一次寬大的模型spacy.cli.download (“en_core_web_sm”)nlp = spacy.load (“en_core_web_sm”)#提取組織一批內容為cs在csi:收益率cs。地圖(λx: anonymize_record (x, nlp))
通過理解每個詞的語義價值通過NLP(例如,一個名字),組織很容易混淆敏感信息從非結構化數據按照下麵的例子。
這種方法可以擴展很好處理多個數據流,在實時批處理,不斷更新和保持最新的狀態信息在目標三角洲表來使用數據科學家和業務分析師進行進一步分析。
這樣一個實際數據科學方法證明了組織需要打破傳統數據之間的筒倉存在的科學活動和日常數據操作,將所有角色在相同的數據和分析平台。Beplay体育安卓版本
衡量品牌感知和客戶情緒
有更好的聲譽管理係統,FSIs可以構建卓越的客戶體驗通過追蹤和隔離客戶反饋某些機構提供的產品和服務。這不僅可以幫助發現問題,而且也幫助內部團隊更有前瞻性和接觸客戶的痛苦。beplay体育app下载地址為了更好地理解數據,數據科學家傳統大型數據集產生較小的樣本集,他們可以深入地挖掘(有時在他們的筆記本電腦上)使用他們熟悉的工具,如熊貓dataframe和Matplotlib可視化。為了減少數據移動跨平台(因此減少相關的風險與移動數據)和探索性數據分析的效率和效益最Beplay体育安卓版本大化,考拉可以用來探索你的所有數據和一個語法數據科學家們最熟悉的(類似於大熊貓)。
在以下的示例中,我們探索的J。P Morgan Chase的抱怨使用簡單Pandas-like語法,同時利用分布式火花引擎罩下。
進口databricks.koalas作為kskdf = spark.read.table (“complaints.complaints_anonymized”).to_koalas ()jp_kdf = kdf [kdf [“公司”)= =摩根大通(jpm . n:行情)。]jp_kdf [“產品”].value_counts () .plot (“酒吧”)
采取進一步的分析,我們可以運行一個術語頻率分析客戶投訴識別問題,頂部為客戶所有產品為特定的投資策略基金會。beplay体育app下载地址乍一看,我們可以很容易地識別相關問題受害者身份盜竊和不公平的債。
我們可以在進一步挖掘個人消費貸款和信用卡等產品使用一個詞雲來更好地了解客戶抱怨。beplay体育app下载地址
雖然探索性數據分析非常適合商業智能(BI)和活性分析,重要的是要理解,預測和分類直接客戶反饋,公眾評論,和其他社交媒體實時交互建立信任,使有效的客戶服務和個別產品性能測量。雖然許多解決方案使我們能夠收集並存儲數據,能夠無縫地分析和處理數據,使關鍵的見解在一個統一的平台是一個必須在構建聲譽管理係統。Beplay体育安卓版本
為了驗證預測潛在的消費者數據,因此確認我們的數據集是一個很好的適合ML,我們可以識別投訴通過使用之間的相似性t-Distributed隨機鄰居嵌入(t-SNE)按照下麵的例子。雖然有些消費者投訴可能重疊的類別(包括安全、無擔保貸款表現出類似的關鍵詞),我們可以觀察到不同的集群,指示性的模式,可以很容易地學會了一台機器。
上麵的情節再次證明一個模式,使我們對投訴進行分類。潛在的重疊也表明一些投訴由最終用戶或代理商,分類錯誤很容易導致次優的投訴管理係統和客戶體驗不佳。
毫升和增強智能
磚的ML運行時包提供可靠和高性能開源框架包括scikit-learn XGboost, Tensorflow,喬恩·雪實驗室NLP,幫助科學家更好地專注於交付價值通過數據管理基礎設施,而不是花時間和努力包,和依賴關係。
在本例中,我們創建一個簡單的scikit-learn管道對投訴進行分類分為四個主要類別的產品我們看到t-SNE情節和預測由培訓之前投訴的嚴重性有爭議的主張。同時三角洲湖提供可靠性和性能數據,MLFlow提供效率和透明度,你的見解。每毫升實驗將自動跟蹤和hyperparameters登錄一個共同的地方,導致工件高質量的一個可以信任和行動。
進口mlflow進口mlflow.sklearn與mlflow.start_run (run_name =“complaint_classifier”):#火車管道,自動記錄所有參數管道。fit (X_train y_train)y_pred = pipeline.predict (X_test)精度= accuracy_score (y_pred y_test)#日誌mlflow管道和指標mlflow.sklearn.log_model(管道,“管道”)mlflow.log_metric (“準確性”、準確性
所有實驗記錄在一個地方,數據科學家可以很容易地找到最好的適合模型,使操作團隊獲取批準模型(作為他們的一部分風險管理模型流程)和表麵那些見解最終用戶或下遊流程,縮短模型生命周期過程從月周。
#負荷模型作為火花UDFmodel_udf = mlflow.pyfunc.spark_udf(火花,“模型:/投訴/生產”)#負荷模型作為一個SQL函數火花。udf。注冊(“分類”,model_udf)#分類投訴在真正的時間火花。readStream。表(“complaints_fsi.complaints_anonymized”)。withColumn(“產品”model_udf (“投訴”)
雖然我們現在可以應用毫升實時自動分類和re-reroute新的投訴,隨著他們展開,可能利用UDF在SQL代碼使業務分析人員能夠直接與我們的模型,同時為可視化查詢數據。
選擇received_date,分類(投訴)作為產品,數(1)作為總從complaints.complaints_anonymized集團通過received_date
這可以使我們產生進一步使用磚的筆記本可視化或可行的見解SQL分析這是一個易於使用的基於網絡的可視化和儀表盤在磚允許用戶探索的工具,查詢、可視化和共享數據。使用簡單的SQL語法,我們可以很容易地查看投訴歸因於不同的產品經過一段時間在一個給定的位置。如果上實現一個流這可以提供快速的見解對於倡導團隊采取行動和應對客戶。beplay体育app下载地址例如,典型的客戶投訴我們看到包括身份盜竊和數據安全產生了巨大影響品牌聲譽和攜帶大監管機構beplay体育app下载地址的罰款。這些類型的事件可以很容易地管理通過建立管道中概述這篇博客有助於企業管理聲譽風險為快樂的客戶作為公司戰略的一部分,改變數字景觀。beplay体育app下载地址
建立聲譽風險成為公司治理策略
在這個博客中,我們展示了企業可以利用磚的統一分析平台構建風險引擎,可以分析客戶反饋,安全地和實時,為了讓聲譽風險的早期評估。Beplay体育安卓版本雖然博客強調數據來自CFPB,這種方法可以應用於其他來源的數據,比如社會媒體,直接客戶的反饋,和其他非結構化的來源。這使得數據團隊協作和快速迭代建立聲譽風險的平台可以規模隨著數據量的增長,同時利用開源AI工具在市場上最好的品種。Beplay体育安卓版本
試試以下筆記本磚利用人工智能的力量降低聲譽風險和聯係我們了解更多關於我們如何協助FSIs類似的用例。