跳轉到主要內容
公司博客上

駕駛在西北相互轉換(見解平台)朝著一個可伸縮的、開放Lakehouse架構Beplay体育安卓版本

通過Madhu Kotian

2021年7月15日 公司博客上

分享這篇文章

這是一個客人Madhu Kotian撰寫文章,工程副總裁(投資產品數據、CRM應用程序和報告)在西北相互的。


數字轉換前,在大多數當代大數據中心公司的計劃,特別是在沉重的公司遺留的足跡。支撐組件之一的數字轉換數據及其相關數據存儲。160 +年,西北相互幫助家庭和企業實現財務安全。擁有超過310億美元的收入,4.6 +客戶和9300 +金融專業人士,沒有太多的公司這一卷跨各種來源的數據。

數據攝取是一個挑戰在這個時代,當組織處理數百萬數據點在不同的格式,時間框架,從不同的方向以前所未有的體積。我們想使數據準備分析來理解它。今天,我興奮地分享我們的新穎的方法來改造和現代化我們的數據攝入過程,調度過程,並與數據存儲的旅程。我們學到的一件事是,一個有效的方法是多方麵的,這就是為什麼除了技術安排我走過我們計劃在我們的團隊。

所麵臨的挑戰

在我們開始變換之前,我們與我們的業務夥伴合作,真正了解我們的技術約束和幫助我們塑造的問題陳述我們的業務案例。

我們確定的業務難點是缺乏集成數據,與客戶和業務數據來自不同的內部和外部團隊和數據源。我們意識到實時數據的價值,但有限的訪問到生產/實時數據,可以使我們能夠及時作出業務決策。我們也了解到數據存儲業務團隊建造的導致數據倉庫,進而導致數據延遲問題,增加數據管理成本和不必要的安全約束。

此外,有技術挑戰對我們當前的狀態。需求增加和額外的數據需要,我們經驗豐富的約束與基礎設施的可伸縮性,數據延遲、成本管理數據倉庫,數據規模和容量限製和數據安全問題。這些挑戰越來越多,我們知道我們有很多,需要找到合適的合作夥伴來幫助我們在我們的轉換旅程。

解決方案分析

我們需要成為數據驅動的競爭力,更好地為我們的客戶服務和優化內部流程。beplay体育app下载地址我們探索了各種選項和執行幾個poc來選擇最後的建議。以下為我們的前進策略——是必備的

  1. 我們的數據攝入的全方位的解決方案,數據管理和分析的需要
  2. 一個現代數據平台,可以有效地Beplay体育安卓版本支持我們的開發人員和業務分析人員使用SQL執行他們的分析
  3. 數據引擎可以支持ACID事務上的S3和實現基於角色的安全性
  4. 一個係統,可以有效地保障我們的PII /φ信息
  5. 一個Beplay体育安卓版本平台,可以自動擴展基於數據處理和分析的需求

我們遺留的基礎設施是基於MSBI堆棧。我們使用SSIS攝入,SQL Server數據存儲,Azure服務表格分析模型和PowerBI儀表盤和報表。雖然平台最初滿足業務的需要Beplay体育安卓版本,我們有挑戰在擴展增加數據量和數據處理需求,和限製我們的數據分析的期望。有額外的數據需求,我們的數據延遲加載延遲和數據存儲的問題具體業務需求數據倉庫和數據擴張引起的。

安全成為了一個挑戰由於傳播跨多個數據存儲的數據。我們有大約300個ETL作業花了超過7小時的日常工作。時間的任何變化或新開發的市場是大約4至6周(根據複雜性)。

西北相互之前的遺留數據分析堆棧數據現代化計劃。
圖1:傳統的體係結構

評估在市場上多個解決方案後,我們決定推進磚來幫助我們提供一個集成數據管理解決方案在一個開放的lakehouse架構。

磚正在開發的Apache火花™啟用我們使用Python來構建自定義數據攝入和元數據管理框架。它提供了我們靈活地執行特殊分析和其他數據發現使用筆記本。磚三角洲湖(我們的數據的存儲層之上湖)為我們提供了靈活地實現各種數據庫管理功能(ACID事務、元數據管理、時間旅行,等等),包括實現所需的安全控製。磚的頭痛從有效地管理/擴展集群和反應的被壓抑的需求我們的工程師和業務用戶。

西北相互之前的遺留數據分析堆棧數據現代化計劃。
圖2:建築磚

遷移的方法和新員工培訓資源

我們開始與一小群工程師和分配給一個虛擬團隊從我們現有的scrum團隊。執行不同的POC,他們的目標是建立在推薦的解決方案,開發最佳實踐和過渡回到各自的團隊,以幫助新員工培訓。利用現有團隊成員支持我們更好的因為他們現有的遺留係統知識,了解當前攝入流/業務規則,精通至少一個編程知識(數據工程+軟件工程知識)。這支球隊第一次訓練自己在Python中,理解複雜的火花和δ的細節,和與磚團隊密切合作,驗證解決方案/方法。而團隊正在形成未來的狀態,其餘的我們的開發人員從事業務優先級。

因為大多數開發人員MSBI棧的工程師,我們的行動計劃是提供一個數據平台,將會為我們的開發人員無摩擦,業務用戶,我們的顧問。Beplay体育安卓版本

  • 我們建立了一個攝入框架,覆蓋所有的數據加載和轉換的需要。它有內置的安全控製,維護所有的元數據和我們的源係統的秘密。攝入過程接受JSON文件,包括源、目標和需要轉換。它允許簡單的和複雜的轉換。
  • 對於調度,我們最終使用氣流但鑒於DAG的複雜性,我們建立自己的自定義框架頂部的氣流,接受YAML文件,包括工作信息及其相關的相互依賴關係。
  • 使用δ為管理模式的變化,我們構建自己的定製框架,自動化不同類型數據庫操作(DDL)不需要開發人員有破玻璃訪問數據存儲。這也幫助我們實現不同審計控製數據存儲。

並行,團隊還與我們的安全團隊,確保我們理解和符合所有的標準數據安全(在運輸過程中加密,加密PII靜止和列級加密保護信息)。

一旦這些框架建立,群體團隊部署了一個端到端流程(源到目標與所有轉換)和生成一組新的報告/儀表盤PowerBI指向三角洲湖。目的是為了測試我們的端到端流程的性能,驗證數據和獲得任何反饋從我們的用戶。我們根據反饋不斷改進的產品和我們的性能/驗證測試結果。

同時,我們建立了板載我們的開發人員來培訓指導和指引。不久之後,我們決定將隊列團隊成員各自的團隊,同時保留幾繼續支持平台基礎設施(DevOps)。Beplay体育安卓版本每個scrum團隊負責管理和交付各自設置的功能/特性的業務。一旦團隊成員搬回各自的團隊,他們開始了團隊的任務調整速度,包括遷移工作的積壓。團隊領導都給予具體指導和適當的目標,以滿足不同的Sprint /遷移目標項目增量。隊列組的團隊成員現在常駐專家和他們幫助他們的球隊在新平台。Beplay体育安卓版本他們可用於任何特定問題或幫助。

逐步建立我們的新平台,我們保留舊的確認和驗證平台。Beplay体育安卓版本

成功的開始

整體轉換花了大約一年半,這完全就是一次壯舉,因為我們必須構建框架,業務優先級管理,管理安全預期,重組我們的團隊和遷移平台。Beplay体育安卓版本整體加載時間下來非常從7個小時到2個小時。我們的上市時間是大約1 - 2周,顯著低於4 - 6周。我知道這是一個重大的改進,將擴展本身在很多方麵對我們的業務。

我們的旅程還沒有結束。當我們繼續加強我們的平台,我們下一個任務將擴大在lakehoBeplay体育安卓版本use模式。我們正在將我們的平台遷移到E2和部署磚SQL。Beplay体育安卓版本我們正在我們的策略提供一個自助服務平台,我們的業務用戶執行他們的特別的分析,也使他們能夠帶著自己的數據與我們的集成Beplay体育安卓版本數據進行分析的能力。我們學到的是,使用一個平台,使我們獲益匪淺是開放的、統一的和可伸縮的。Beplay体育安卓版本隨著我們的需要和能力的增長,我們知道我們有一個強大的合作夥伴在磚。

聽到更多西北Lakehouse共同的旅程


關於Madhu Kotian

Madhu Kotian是工程副總裁(投資產品數據、CRM應用程序和報告)在西北相互的。他已經超過25年的經驗在信息技術領域的經驗和專業知識在數據工程、人員管理、項目管理、架構、設計、開發和維護使用敏捷實踐。他也是一個專家在數據倉庫方法和實現數據集成和分析。

免費試著磚
看到所有公司博客上的帖子
Baidu
map