設計模式在金融服務業中實時的見解
2022年5月20日 在工程的博客
個性化是一個競爭優勢對於大多數每一個金融服務機構(FSIs的簡稱),從現在的銀行,保險和投資管理平台。Beplay体育安卓版本雖然每個FSI都想提供智能和實時個性化客戶基礎往往掩蓋或使用不完整的實現平台,導致陳舊見解,上市時間長,和損失的生產力由於需要膠水流,AI,一起和報告服beplay体育app下载地址務。Beplay体育安卓版本
這個博客將演示如何實時洞察奠定一個健壯的基礎金融服務用例與磚Lakehouse平台,從OLTP數據庫變化數據捕獲(CDC)儀表板數據報告。Beplay体育安卓版本磚一直支持流媒體,本地平台。Beplay体育安卓版本最近發布的三角洲生活表(DLT)使得流媒體更簡單和更強大的新的疾病預防控製中心功能。我們已經介紹了CDC使用指導DLT在最近的一次全麵博客。在這個博客中,我們專注於為FSIs流和展示這些功能幫助簡化新產品優勢和內部FSIs的見解。
為什麼流攝入至關重要
在進入技術細節之前,讓我們討論為什麼磚最適合個性化的用例,特別是為什麼實現流媒體應該是第一步。許多磚客戶實施客戶360個項目或beplay体育app下载地址full-funnel營銷策略通常有以下基本要求。注意時態與時間相關的數據流。
投資策略基金會數據流和需求
- 用戶應用程序保存和更新數據,如點擊流,用戶更新,和地理定位數據需要操作數據庫
- 第三方行為數據增量地交付通過對象存儲或可用雲賬戶——在數據庫中需要流媒體功能增量添加/更新/刪除新的單一的事實來源的數據分析
- FSI有自動化流程導出所有數據庫數據包括用戶更新,點擊流和用戶行為數據到數據湖-需要變化數據捕獲(CDC)攝入和處理工具,以及支持半結構化和非結構化數據
- 數據工程團隊運行自動數據質量檢查和確保數據是新鮮需要數據質量工具和本地流
- 數據科學團隊使用數據下最好的行動或其他預測分析需要本地毫升能力
- 分析工程師和數據分析師將實現數據模型和使用數據報告要求儀表板集成和本地可視化
這裏的核心需求的數據新鮮度報告、數據質量保持完整性,CDC攝入,ML-ready數據存儲。在磚,這些直接映射到三角洲生活表(尤其是自動加載程序,期望和DLT的SCD I型API),磚的SQL,特色商店。自報告和AI-driven見解取決於穩定的高質量的數據流,流邏輯的第一步是主人。
考慮,例如,一個零售銀行想要使用數字營銷以吸引更多的客戶,提高品牌忠誠度。beplay体育app下载地址可以識別關鍵客戶購買模式和趨勢與獨家產品發送個性化的溝通提供了實時根據準確的客戶需求和想要的。這是一個簡單的,但一個無價的用例可能這隻是流和變化數據捕獲(CDC)——這兩個功能需要捕捉消費者行為的變化和風險概況。
偷偷高峰的類型的數據我們在參考DLT處理管道,見下麵的樣品。注意數據的時間自然——所有銀行或貸款係統以時間為順序的事務數據,和一個值得信賴的數據意味著把後麵到達和無序的數據來源。核心數據集顯示包括事務,比如從一個支票存款帳戶(圖2),客戶更新,而且行為數據(圖3)可能會從上遊交易或第三方數據跟蹤。
開始使用流
在本節中,我們將演示一個簡單的端到端數據流,這樣就清楚如何捕捉連續變化從事務數據庫並將它們存儲在一個Lakehouse使用磚流功能。
我們的起點是嘲笑從從事務數據庫中標準格式記錄。下圖提供了一個端到端數據如何流動的照片通過FSI的基礎設施,包括許多種類的數據最終土地在三角洲湖,清洗,總結並在儀表板。有三個主要的過程在這個圖中所提到的,在下一節中,我們將為每一個分解一些說明性的選項。
# 1 -數據攝入過程
本機結構流攝入的選擇
隨著數據,通過銀行和保險客戶提供應用程序,FSIs被迫設計策略在收集這些beplay体育app下载地址數據為下遊消費團隊不同的用例。這些企業麵臨的一個最基本的決定是如何捕獲所有更改的應用程序服務,客戶在生產:從用戶、政策、貸款程序和信用卡交易。beplay体育app下载地址從根本上說,這些應用程序支持的事務數據存儲,無論是MySQL數據庫或更多非結構化數據駐留在NoSQL數據庫如MongoDB。
幸運的是,有許多開放源碼工具,比如Debezium,能夠攝取這些係統的數據。或者,我們看到許多客戶編寫自己的有狀態的客戶從事務性存beplay体育app下载地址儲,讀取的數據寫入分布式消息隊列像卡夫卡集群管理。磚與卡夫卡緊密集成,以及流媒體的直接連接的工作是推薦的模式數據時需要盡可能新鮮。這個設置使企業接近實時的見解,比如實時交叉銷售建議損失或實時視圖(資產負債表上現金獎勵的效果)。模式如下:
- 建立疾病預防控製中心工具寫記錄改為卡夫卡
- 建立了卡夫卡水槽Debezium或其他疾病預防控製中心的工具
- 解析和處理變化數據捕獲(CDC)記錄在磚使用三角洲生活表,第一次登陸數據直接從卡夫卡到銅表中
注意事項
優點
- 數據到達不斷延遲較低,所以消費者近乎實時地得到結果不依賴批量更新
- 完全控製流邏輯
- 三角洲生活表抽象集群管理了銅層,同時通過提供伸縮使用戶能夠有效地管理資源
- 三角洲生活表提供完整的數據沿襲和無縫的數據質量監測降落到銅層
缺點
- 直接從卡夫卡閱讀需要一些解析代碼時降落到青銅分段層
- 這依賴於額外的第三方CDC工具來從數據庫中提取數據並反饋到消息存儲,而不是使用一個工具,建立直接連接
合作夥伴攝入選項
第二個選項獲得數據轉換成連續的見解是磚的儀表板合作夥伴聯係數據攝取合作夥伴的廣泛網絡,簡化數據攝入成磚。對於本例,我們將通過三角洲攝取數據連接器創建的融合性的,一個健壯的卡夫卡提供集與磚。其他受歡迎的工具如Fivetran & Arcion數以百計的連接器核心交易係統。
兩個選項抽象的核心邏輯閱讀原始數據和降落在三角洲湖通過使用複製到命令。在此模式中,執行以下步驟:
- 建立疾病預防控製中心工具改變記錄寫入卡夫卡(和以前一樣)
- 設置磚三角洲湖沉連接器彙合的雲和鉤這個相關的話題
這個選項的主要區別和本機流選項使用支流的三角洲湖沉連接器。看到的取舍對於理解模式選擇。
注意事項
優點
- Low-code疾控中心通過合作夥伴工具支持高速複製來自on-prem遺留數據源的數據,數據庫和主機(例如Fivetran, Arcion等直接連接到數據庫)
- Low-code數據攝入數據平台團隊熟悉流媒體合作夥伴(如支流卡夫Beplay体育安卓版本卡)和偏好土地數據為三角洲湖沒有使用Apache火花™
- 集中管理的主題和水槽連接器彙合的雲(類似Fivetran)
缺點
- 更少的控製數據轉換和有效載荷的解析與火花和第三方庫在最初的ETL階段
- 磚集群配置所需的連接器
基於文件的攝入
許多數據供應商,包括移動遠程信息技術提供商,蜱蟲數據提供者和內部數據生產者——可能會交付給客戶的文件。最佳處理增量文件攝入,磚自動加載程序、一個簡單的自動流工具跟蹤狀態增量數據盤中提要等訪問數據,trade-and-quote(聚合)數據,甚至替代數據集如銷售收入預測盈利預測。
自動加載程序現在可以使用在三角洲地區的生活表管道,使您能夠輕鬆地消耗數以百計的數據提要,而不必配置低層次的細節。自動加載程序的可伸縮性,輕鬆處理每天數以百萬計的文件。此外,它是使用簡單的上下文中δ生活表api(參見下麵的SQL示例):
創建增量式生活表beplay体育app下载地址作為選擇*從cloud_files (“/ databricks-datasets / retail-beplay体育app下载地址org客戶/”,“csv”地圖(“分隔符”、“t \”))
# 2 -變化數據捕獲過程
改變數據采集解決方案是必要的,因為他們最終從核心係統保存更改到一個集中的數據存儲沒有施加額外的壓力對事務數據庫。豐富的數字數據流,捕捉客戶行為變化最重要的個性化銀行或索賠經驗。beplay体育app下载地址
從技術的角度來看,我們使用Debezium強調疾病預防控製中心的工具。需要注意的重要的是序列的關鍵,這是Debeziumdatetime_updated
時代,三角洲生活表(DLT)用來整理記錄,找到最新的變化和實時應用到目標表。再一次,因為用戶的旅行時間中一個重要的組成部分,申請變更成
DLT的功能是一個優雅的解決方案,因為它抽象的複雜性需要更新用戶狀態- DLT僅僅以接近實時的更新狀態一行命令在SQL或Python(說,實時更新客戶偏好從3參加音樂會事件5,標誌著一個個性化的機會提供)。
在下麵的代碼中,我們使用SQL流媒體功能允許我們指定一個連續流降落到一個表,我們申請更改最新的客戶或總更新。參見下麵完整的管道配置。完整的代碼在這裏。
這裏有一些基本的術語需要注意:
- 的
流媒體
關鍵字表示一個表(如客戶事務),接受增量插入/更新/刪除從一個流源(如卡夫卡) - 的
生活
關鍵字顯示數據集的內部,這意味著它已經保存使用DLT api和帶有所有auto-managed功能(包括auto-compaction、集群管理、和管道配置)DLT提供 申請變更成
是DLT提供優雅的CDC API,處理無序和後麵到達的數據通過內部維護狀態,用戶不需要手工編寫額外的代碼或SQL命令。
創建流媒體直播表customer_patterns_silver_copy(約束customer_id期望(customer_id是不零)在違反下降行)TBLPROPERTIES(“質量”=“銀”)評論”潔淨青銅客戶視圖(即什麼將成為銀)”作為選擇json.payload.after。*,json.payload.op從流(live.customer_patterns_bronze);
申請更改成live.customer_patterns_silver從流(live.customer_patterns_silver_copy)鍵(customer_id)應用作為刪除當人事處=“d”序列通過datetime_updated;
過程# 3 -總結客戶偏好和簡單的提供
帽子上麵的簡單攝入管道,我們現在強調磚SQL的儀表板顯示什麼類型的特性和見解與Lakehouse是可能的。所有的指標,細分,並提供以下生產實時數據提要的嘲笑這個見解管道。這些可以為每分鍾更新,更重要的是,新鮮和ML-ready數據。指標需要注意客戶生命周期,規定提供基於客戶的賬戶曆史和采購模式,甚至現金損失和破壞閾值。簡單的報道實時數據可以突出關鍵指標,將通知如何釋放一個特定的產品,如現金提供了。最後,報告儀表板(磚或BI夥伴如權力BI或表)可以表麵這些見解;當AI的見解是可用的,他們可以很容易地添加到這樣一個儀表板由於底層數據是集中在一個Lakehouse。
結論
這個博客強調數據攝入過程的多個方麵,這是很重要的在金融服務支持各種個性化的用例。更重要的是,磚支持實時的用例本身,提供新鮮的見解和抽象api (三角洲生活表)來處理變化數據,支持Python和SQL的開箱即用。
有更多的銀行和保險公司將更多的個性化客戶的體驗,它將支持該模型開發的關鍵但更重要的是,創建一個健壯的增量數據攝入的基礎。最終,磚的Lakehouse平台是首屈一指的,它提供流媒體和AI-dBeplay体育安卓版本riven大規模個性化提供更高CSAT / NPS低CAC /生產,和更快樂和更有利可圖的客戶。beplay体育app下载地址
了解更多關於δ住表方法應用於這個博客,發現所有的示例數據代碼在GitHub庫。