降低基礎設施成本
每天事件處理分析
更快的數據管道
使機器能夠“看到和理解”需要以接近實時的處理大量的數據。GumGum廣告業務團隊,例如,需要提取實時見解使關鍵業務決策成功的廣告交付和性能。
正在尋找數據的見解,可以提高品牌的audience-buying戰略與規劃廣告格局急劇變化很難提供準確的實時bidstream分析。超過350億的大規模bidstream每天數據點,GumGum的業務團隊不斷尋找提高運動性能的實時bidstream見解。
當然,每天處理的數據集大小100多個數據管道運行24×7不是一個簡單的命題——特別是當你沒有正確的技術。磚之前,GumGum掙紮與AWS EMR計算密集型工作負載管理和Apache風暴,以及由此產生的無法自動擴展,現貨實例分配、執行快速的數據分析,和跨團隊協作。
“我們在數字廣告業務這意味著我們的交通趨勢變化很大從第一季度到第四季度,我們需要能夠毫不費力地向上和向下擴展,“Rashmina Menon說,高級GumGum數據工程師。”,除了不同的流量趨勢,我們作為一個公司,數據爆炸,我們需要能和我們成長的工具。”
GumGum數據工程團隊,這樣的增長意味著他們需要一個工具,使它容易訪問數據和構建ETL管道。數據科學團隊,他們需要規模數據探索和模型訓練。數據分析師,他們需要訪問時間表業務洞察力。
他們需要一個平台,促進全麵合作更快更有效的Beplay体育安卓版本生產力和價值的轉換。
自實施磚,GumGum已經能夠迅速過渡分布式數據處理工作負載從Apache風暴(AWS EMR)火花流與全麵管理計算集群,根據需要自動擴展。三角洲湖已經使他們能夠構建具有成本效益的,可靠的,和快速查詢性能,現在現貨實例是用於所有工作負載,提高運營效率和降低成本。
“磚與三角洲湖不僅使我們能夠實現更快的查詢性能,但我們也能夠使整個項目更具有成本效益的,”Jatinder Assi博士補充道,一個數據在GumGum工程經理。“三角洲緩存,我們的數據是完全存儲在磁盤上,釋放內存使用映射-規約模式操作。”
數據然後流下遊數據科學家和分析師。數據科學家使用MLflow簡化模型管理包括包裝代碼可重用性和創建一個多步模型評價管道提高部署。和分析師團隊利用商業智能的集成美人做出更明智的決策。
至於協作,磚互動的筆記本帶來了團隊在一起。現在,他們可以共享數據分析工作和結果跨多個數據功能,並支持多種語言(Scala, Python、SQL、R)使得不同的工作負載和用戶在數據工程,分析師和數據科學家船上來。
磚統一數據分析平台與三角洲湖使得GumGum團隊加速他們的數據處理和Beplay体育安卓版本報告功能5 x同時降低基礎設施成本,2 x。“今天我們的廣告庫存預測應用程序現在擁有響應時間不到30秒,“Menon說。“和我們交付性能成本優化的方式。”
與磚確保QA、發布和部署周期不僅更快,更高效和EMR以前管道相比,GumGum數據團隊的能力有信心推動企業向前發展。
“磚已經給我們的成本優化和查詢性能的完美的平衡,”Assi結束。“這使我們更快地構建和部署數據密集型工作負載和節省成本,進而讓我們的賣家和關鍵業務涉眾來驅動業務數據驅動的方式。”