跳轉到主要內容
工程的博客

AML大規模解決方案使用磚Lakehouse平台Beplay体育安卓版本

分享這篇文章

反洗錢(AML)合規已經毫無疑問的議程項目管理者提供對全球金融機構的監督。隨著AML的進化,成為更複雜的在過去的幾十年裏,所以設計的監管要求,以應對現代洗錢和恐怖主義融資方案。的1970年銀行保密法案》為金融機構提供指導和框架放在適當的控製監督金融交易和向有關部門報告可疑的財政活動。本法為金融機構提供了設置框架打擊洗錢和金融恐怖主義。

反洗錢為什麼這麼複雜

當前AML業務承擔的過去十年幾乎沒有相似之處。轉向數字銀行、金融機構(FI)處理每天數十億美元的交易,導致了洗錢的範圍不斷增加,即使有更嚴格的交易監控係統和健壯的了解你的客戶什麼解決方案。在這個博客中,我們分享我們的經曆與FI客戶合作,建立企業級的AML的解決方案beplay体育app下载地址lakehouse平Beplay体育安卓版本台提供了強有力的監督和提供創新的、可擴展的解決方案,以適應現代網絡洗錢的現實威脅。

構建一個與lakehouse AML的解決方案

每天的操作負擔處理數十億交易來自於需要存儲來自多個數據源的數據和電力密集,下一代AML的解決方案。這些解決方案提供了強大的風險分析和報告同時支持使用先進的機器學習模型來減少誤報,提高下遊調查效率。FIs已經采取措施解決基礎設施和規模問題,從本地為更好的安全雲,敏捷性和所需的規模經濟來存儲大量的數據。

還有的問題如何理解大量的結構化和非結構化數據收集和存儲在廉價的對象存儲。雖然雲供應商提供一個廉價的方式來存儲數據,使得下遊AML的數據風險管理和合規活動始於存儲中數據的高質量和高性能格式下遊消費。的磚LakehouseBeplay体育安卓版本站台到底。通過結合數據的存儲成本低效益湖泊健壯的事務數據倉庫的功能,金融中間人才能真正建立現代AML平台。Beplay体育安卓版本

上述數據存儲的挑戰,AML分析師麵臨一些關鍵領域特定的挑戰:

  • 提高了價值分析非結構化數據,如圖像、文本數據和網絡鏈接
  • 減少DevOps負擔支持關鍵毫升實體解析等功能,計算機視覺和圖像分析的實體元數據
  • 打破豎井引入分析工程對AML交易和儀表盤層和豐富表

幸運的是,磚有助於解決這些利用三角洲湖存儲和非結構化和結構化數據結合,建立實體關係;此外,磚的使用新三角洲引擎提供高效的訪問光子計算加快BI對表的查詢。這些功能,在lakehouse毫升是一等公民,這意味著分析師和數據科學家不浪費時間二次抽樣或移動數據分享儀表板和領先一步糟糕的演員。

AML Lakehouse參考體係結構

檢測AML模式圖形功能

的一個主要數據源AML分析師使用的情況交易數據。盡管該數據表格和方便的使用SQL,跟蹤鏈變得繁瑣事務和SQL查詢三個或三個以上層深。出於這個原因,重要的是要有一個靈活的語言和api來表達簡單的概念如一個連接網絡的可疑人員一起非法交易。幸運的是,這是簡單的使用GraphFrames來完成,一個圖形API中預裝磚運行時機器學習。

在本節中,我們將展示如何使用圖表分析來檢測AML方案等合成身份和分層結構。我們要利用數據集組成的事務,以及實體來自交易,來檢測這些模式使用Apache的存在引發™,GraphFrames和三角洲湖。持久化保存在三角洲湖這樣的模式磚的SQL可以應用於金牌彙總版本的這些發現,向最終用戶提供圖形分析的力量。

場景1——合成身份

正如上麵提到的,合成身份的存在可以報警的原因。使用圖表分析,所有的實體從我們的事務可以批量分析檢測的風險水平。在我們的分析,這樣做是在三個階段:

  1. 基於事務數據,提取實體
  2. 基於地址、創建實體之間的聯係的電話號碼或電子郵件
  3. 使用GraphFrames連接組件來確定是否有多個實體(由一個ID和其他屬性)是通過一個或多個連接鏈接。

基於多少連接(即公共屬性)之間存在的實體,我們可以指定一個更低或更高的風險評分和創建警報基於高分組。下麵是一個基本的表示這一想法。

基於多少連接(即公共屬性)之間存在的實體,我們可以分配更低或更高AML風險評分

首先,我們創建一個身份圖使用一個地址,電子郵件和電話號碼鏈接個人如果他們匹配任何這些屬性。

e_identity_sql =“‘選擇entity_id src,地址從aml dst。aml_entities_synth地址不是空的地方聯盟選擇entity_id src,電子郵件與aml dst。aml_entities_synth email_addr不是空的地方聯盟選擇entity_id src,電話從aml dst。aml_entities_synth phone_number的not null“‘graphframes進口*pyspark.sql.functions進口*aml_identity_g = GraphFrame (identity_vertices identity_edges)結果= aml_identity_g.connectedComponents ()
              結果\.select (“id”,“組件”,“類型”)\.createOrReplaceTempView (“組件”)

接下來,我們將運行查詢識別當兩個實體有重疊的個人識別和分數。基於這些查詢的結果圖組件,我們希望一群組成的隻有一個匹配的屬性(如地址),而不是過多的關注的原因。然而,隨著更多屬性匹配,提醒我們應該期待。如下所示,我們可以標記所有三個屬性匹配的情況下,允許SQL分析師得到每天的結果從圖分析運行在所有實體。

示例查詢可視化識別當兩個實體有重疊的個人識別和分數。

場景2 -結構

另一個常見的模式結構,這發生在多個實體勾結和發小在雷達下的支付的銀行,後來路線更大的總金額最終機構(如下描述最右側)。在這種情況下,各方一直在10000美元的門檻金額,通常會提醒當局。這不僅是來輕鬆完成圖分析,但是主題發現技術網絡可以自動擴展到其他排列和定位其他可疑交易以同樣的方式。

一個常見的模式被稱為組織。這是當多個實體發送勾結和發小在雷達下的支付的銀行,後來路線大總最後一個機構

現在我們將編寫基本motif-finding代碼來檢測上述場景中使用圖表功能。注意,這裏是半結構化的JSON輸出;所有的數據類型,包括非結構化類型,方便在lakehouse——我們將保存這些特定的SQL報告結果。

主題=“(一)- (e1) - > (b);(b) - (e2) - > (c);(c) - (e3) - > (d);(e) - (e4) - > (f);(f) - (e5) - > (c);(c) - (e6) - > (g)”struct_scn_1=aml_entity_g.find(主題)joined_graphs=struct_scn_1.alias \ (“a”)加入(struct_scn_1.alias (b)、坳(“a.g.id”)==坳(“b.g.id”)) \過濾器(坳(“a.e6.txn_amount”)+坳(“b.e6.txn_amount”)>10000年)

使用主題的發現,我們提取有趣的模式,資金通過4種不同的實體,並不斷進行閾值10000美元。我們加入我們的圖元數據的結構化數據集生成見解AML分析師做進一步調查。

通過圖形圖案發現識別可能的結構

場景3——風險評分傳播

識別高風險的實體將會影響圈(網絡效應)。所以,所有的實體的風險評分與必須進行調整,以反映區域的影響。使用迭代方法,我們可以遵循交易流向任何深度和調整網絡中影響他人的風險評分。如前所述,圖表分析避免了多個重複運行SQL連接和複雜的業務邏輯,從而影響性能由於內存限製。圖分析和Pregel API是建立準確的目的。最初由穀歌開發的,Pregel遞歸地允許用戶“傳播”消息從任何頂點對應的鄰國,更新頂點狀態(他們的風險評分)每一步。我們可以代表使用Pregel API動態風險方法如下。

使用圖表分析和Pregel API來檢測在一個網絡實體如何AML傳播風險。

上麵的圖表顯示了網絡的起始狀態和兩個後續迭代。說我們開始與一個壞的演員(節點# 3)的風險評分10。我們要懲罰所有人辦理與該節點(即節點4、5和6)和接收基金通過,例如,風險評分的一半壞的演員,然後添加到他們的基礎分數。在下一次迭代中,所有節點下遊節點4,5、6會調整他們的分數。

節點號 迭代# 0 迭代# 1 迭代# 2
1 0 0 0
2 0 0 0
3 10 10 10
4 0 5 5
5 0 5 5
6 0 5 5
7 0 0 5
8 0 0 0
9 0 0 2.5
10 0 0 0

使用Pregel API從GraphFrame,我們可以計算和保存修改後的分數為下遊消費的其他應用程序。

graphframes。自由進口Pregel排名=aml_entity_g。pregel \.setMaxIter (3)\.withVertexColumn (“risk_score”,坳(“風險”),合並(Pregel.msg ()+坳(“風險”),坳(“risk_score”)))\.sendMsgToDst (Pregel.src (“risk_score”)/2)\.aggMsgs (總和(Pregel.msg ())) \.run ()

地址匹配

我們想簡要提及模式實際街景圖片地址匹配的文本。通常,需要AML分析師驗證地址的合法性與實體的文件。這個地址是一個商業建築,居民區或簡單的郵箱嗎?然而,分析圖片往往是一個冗長費時的和手動過程獲得,清潔和驗證。lakehouse數據體係結構允許我們使用Python和ML自動化大多數這個任務運行時和PyTorch pre-trained開源模型。下麵是一個例子,一個有效的解決人類的眼睛。自動化驗證,我們將使用一個pre-trained VGG有成百上千的有效對象模型我們可以用來檢測一個住宅。

有效的住宅左邊的圖像。無效的居住地址在右邊顯示潛在的風險更高。

使用下麵的代碼,可以自動運行,我們現在有一個標簽附加到所有我們的圖片,我們已經加載圖像引用和標簽也成一個簡單的SQL表查詢。注意到下麵的代碼是多麼簡單的查詢圖像的一組對象裏麵,查詢等非結構化數據的能力與三角洲湖是一個巨大的分析師,節省時間,加快了驗證過程到幾分鍾,而不是幾天或幾周。

公益訴訟進口圖像matplotlib進口厘米
              img = Image.fromarray (img)vgg = models.vgg16 (pretrained =真正的)預測= vgg (img).argmax預測= prediction.data.numpy () ()img_and_labels[我]=標簽(預測)

當我們開始總結時,我們注意到一些有趣的類別出現。從分解如下看到,有幾個明顯的標簽如庭院、活動房屋和小型摩托車我們期望看到物品中發現一個住宅地址。另一方麵,CV模型標記一個太陽能盤從周圍的對象在一個圖像。(注意:因為我們不局限於一個開源模型訓練一組自定義的圖片,太陽盤標簽是不準確的。)對圖像的進一步分析,我們深入並立即看到我)沒有一個真正的太陽能碟,更重要的是ii)這個地址不是一個真正的住宅(見上麵我們並排比較)。三角洲湖格式可以讓我們商店的引用非結構化數據和標簽的簡單查詢分類下麵分解。

三角洲湖的力量可以讓我們商店的引用非結構化數據和標簽的簡單查詢分類下麵分解

樣例AML可視化解決方案解決驗證,顯示標簽附加到每個圖像分析。

實體解析

最後一類,我們關注的是AML挑戰實體解析。許多開源庫解決這個問題,所以對於一些基本實體模糊匹配,我們選擇的亮點Splink,實現了連杆在規模和提供配置指定匹配列和屏蔽規則。

在實體的上下文來源於我們的交易,這是一個簡單的練習將δ湖事務插入Splink的上下文。

設置= {“link_type”:“dedupe_only”,“blocking_rules”:【“l。txn_amount = r.txn_amount”,),“comparison_columns”:【{“col_name”:“rptd_originator_address”,},{“col_name”:“rptd_originator_name”,}]}splink進口Splink鏈接器= Splink(設置、df2火花)df2_e = linker.get_scored_comparisons ()

Splink通過分配匹配概率,可以用來識別交易實體屬性的高度相似,提高潛在的警告對報道地址,實體名稱或事務數量。考慮到實體解析可以高度手動匹配的賬戶信息,在開源庫自動化這個任務並保存信息三角洲湖可以讓調查人員更有效率的情況下解決。雖然有幾個選項可用於實體匹配,我們建議使用Locality-Sensitive散列(激光衝徊化)來確定合適的算法。您可以了解更多關於激光衝徊化和它的好處這篇博客

正如上麵報道的,我們很快就發現了一些不一致的紐約梅隆銀行地址,與“加拿大廣場、金絲雀碼頭,倫敦,英國“類似於“加拿大廣場、金絲雀碼頭,倫敦,英國”。我們可以存儲重複項消除記錄回差值表可用於AML的調查。

刪除匹配實體

AML lakehouse儀表板

磚lakehouse SQL是縮小差距的對傳統數據倉庫的簡化數據管理、光子與新的查詢引擎和用戶的並發性能。這非常重要,因為許多組織沒有預算過高專有AML軟件支持多種使用情況下,如打擊資助恐怖主義(鋼管),幫助打擊金融犯罪。在市場上,有專門的解決方案,可以執行上麵的圖表分析,專門解決BI在倉庫,專門解決方案毫升。AML lakehouse設計結合。AML數據平台團隊Beplay体育安卓版本可以利用低成本的三角洲湖雲存儲而輕鬆地集成開源技術生產策劃報告基於圖形技術,計算機視覺和SQL分析工程。下麵我們將介紹一個物質化的AML的報告。

附加的筆記本生產交易對象、實體對象,以及總結等構建前景,合成身份分類使用pre-trained模型層和地址。在下麵的磚SQL的可視化,我們使用我們的光子的SQL引擎執行總結有關這些主題和內置的可視化生成一個報告儀表板在幾分鍾內。兩個表上有完整的acl,以及儀表板本身,允許用戶與高管和數據分享團隊——一個調度程序定期運行這個報告也內置。儀表板是人工智能的一個高潮,BI和分析工程建在AML的解決方案。

儀表板是人工智能的一個高潮,BI,和分析工程建在AML的解決方案。

開放銀行業的轉型

開放銀行業的崛起使FIs能夠提供更好的客戶體驗通過消費者之間的數據共享,FIs和第三方服務提供者通過api。這方麵的一個例子支付服務指令(PSD2)在歐盟地區,改變了金融服務的一部分開放的歐洲銀行監管。因此,FIs獲得更多數據從多個銀行和服務提供者,包括客戶賬戶和交易數據。這一趨勢已擴展詐騙和金融犯罪的世界內的最新指導FinCEN下section 314 (b)美國愛國者法案;覆蓋FIs現在可以共享信息與其他金融中間人和在國內外分支機構關於個人、實體、組織等等,被懷疑參與潛在的洗錢。

而信息共享提供幫助與透明度和保護美國的金融係統打擊洗錢和恐怖主義融資、信息交換必須通過使用協議通過適當的數據和安全保護。解決安全問題的信息共享,磚最近宣布的三角洲分享為數據共享、開放和安全協議。使用熟悉的開源API,比如熊貓和火花,數據生產者和消費者現在可以共享數據使用安全,開放協議和維護一個完整的審計事務的所有數據保持遵守FinCEN法規。

AML組織內數據共享

結論

lakehouse架構是最可伸縮的和通用的平台,使分析師AML分析。Beplay体育安卓版本Lakehouse支持用例從模糊匹配圖像分析與內置的儀表板,BI和所有這些功能將允許組織減少總體擁有成本相比AML專有的解決方案。金融服務團隊在磚正致力於各種業務問題在金融服務領域,使數據工程和科學專業人士開始磚之旅解決方案加速器像AML。

筆記本電腦今天在磚來加速你的AML的發展戰略聯係我們了解更多關於我們如何幫助客戶提供類似的用例。beplay体育app下载地址

免費試著磚
看到所有工程的博客的帖子
Baidu
map