跳轉到主要內容
人工智能的數據

使用Hadoop是時候重新審視你們的關係

2021年3月25日 數據策略

分享這篇文章

公司被迫適應遠程分布式員工在過去的一年中,雲應用加速了以前所未有的速度+ 14%導致電視台2%或13美元b高於預估2020 - b可能超過600美元的on-prem雲遷移在未來幾年內。這一轉變到雲的地方越來越重要在新一代的數據和分析平台,推動創新和實現企業數字轉換策略。Beplay体育安卓版本然而,許多組織與複雜性,仍不能攀登的基礎設施和嚴重的維護管理費用的遺產Hadoop環境,最終犧牲的價值數據,反過來,風險他們的競爭優勢。應對這一挑戰,解鎖更多的(有時是隱藏的)機會在他們的數據,組織轉向開放、簡單和協作的基於雲的數據和分析平台像磚Lakehouse平台。beplay娱乐iosBeplay体育安卓版本在這個博客中,您將了解的挑戰促使組織探索現代基於雲的解決方案和角色lakehouse架構在引發下一波的數據驅動的創新。

Hadoop的承諾

Hadoop分布式文件係統啟動時(HDFS)是一個改變遊戲規則的技術,仍將是一個圖標的曆史數據。因為它的到來,組織的範圍不再局限於關係數據庫,和它最終催生了現代大型數據存儲和雲數據湖泊。所有的榮耀和宣傳前2015年,Hadoop難以支持的所有數據類型的發展潛力,特別是在企業規模。最終,作為數據景觀和相應的業務需求的發展,Hadoop難以繼續兌現其承諾。因此,企業已經開始探索基於雲的選擇和遷移的速度從Hadoop雲隻會增加。

團隊從Hadoop因為各種各樣的原因;通常是“推”和“拉的組合。“限製與現有的Hadoop係統和高授權和管理成本是推動團隊尋求替代方案。他們也被現代雲數據架構所帶來的新可能性。因組織架構有所不同,我們看到幾個共同的因素,導致客戶意識到是時候開始說beplay体育app下载地址再見。這些包括:

  • 浪費了硬件容量:產能過剩是給定的,這樣您就可以在本地實現擴大你的高峰時間需求,但結果是,大部分的產能閑置但繼續增加的運營和維護成本。Hadoop的隱性成本
  • 擴展成本迅速增加:解耦存儲和計算本地Hadoop環境中是不可能的,所以成本增長數據集。因素與產生的快速數字化COVID-19流行和全球增長率。研究表明,總量的數據創建,被俘,複製,和消費預計將增長152.5%從2020年到2024年為149字節。在hyperdata增長的世界中,成本失控可以迅速氣球。
  • DevOps的負擔:基於客戶的經驗,你可以假設4beplay体育app下载地址到8個全職員工,每100個節點。
  • 增加電力成本:預計支付高達800美元每年每台服務器基於消費和冷卻。每年80美元的100節點的Hadoop集群!
  • 新和更換硬件成本:這個占TCO的~ 20%,等於Hadoop集群的管理成本。
  • 軟件版本升級:這些升級通常規定,以確保合同保留的支持,這些項目需要幾個月的時間,提供一些新的功能和占用寶貴的帶寬的數據團隊。

除了上麵的全方位的挑戰,有真正的Hadoop的長期生存能力的擔憂。2019年,世界看到一個巨大的解開Hadoop內球體。穀歌,其開創性的2004年論文在MapReduce支持創建Apache Hadoop,完全停止使用MapReduce,在推特上穀歌高級副總裁的技術基礎設施,烏爾。也有一些非常引人注目的合並收購在Hadoop的世界。此外,在2020年,一個領先的Hadoop供應商改變了產品集遠離Hadoop-centric, Hadoop現在被認為是“比技術的哲學”。最後,在2021年,Apache軟件基金會宣布了退休的十個項目從Hadoop生態係統。這種日益增長的擔憂與加速需要數字化促使許多公司使用Hadoop重新評估他們的關係。

轉向lakehouse架構

lakehouse架構是理想的數據為數據驅動的組織架構。它結合了最好的品質數據倉庫和數據湖泊為所有數據提供一個高性能的解決方案工作負載。Lakehouse架構支持各種用例,如BI流數據分析,數據科學和人工智能。為什麼客戶喜歡beplay体育app下载地址磚Lakehouse平台?Beplay体育安卓版本

  • 這很簡單。統一數據,分析和人工智能的一個平台。Beplay体育安卓版本
  • 它是開放的。統一數據係統與開放標準和格式。
  • 這是協作。beplay娱乐ios統一數據團隊合作在整個數據和人工智能工作流。

lakehouse架構可以實現遺留Hadoop環境相比,顯著增長“拉動式”企業雲應用。這也包括顧客試圖使用Hadoop在雲中beplay体育app下载地址,但沒有得到相同的結果如預期或期望。作為r·泰勒突堤的工程總監Scribd,解釋道“磚聲稱30% - -50%的優化的最傳統的Apache火花™工作負載。出於好奇,我重構成本模型考慮到磚的價格和潛在的火花工作優化。調整數量後,我發現在優化率17%,磚會降低我們的亞馬遜網絡服務(AWS)基礎設施成本太多,它將支付磚平台本身的成本。Beplay体育安卓版本我們最初的評價後,我已經出售的特性和開發速度改進磚將提供。當我跑的數字在我的模型中,我知道我買不起不采用磚!”

Scribd並不孤獨;額外的客戶,從Hadobeplay体育app下载地址op遷移到磚Lakehouse平台包括:Beplay体育安卓版本

  • H&M處理大量的數據來自5000多個商店每天超過70與數以百萬計的客戶市場。beplay体育app下载地址Hadoop-based架構創建挑戰數據。它成為資源密集型和昂貴的規模,提出了數據安全問題,難以大規模操作支持數據科學的努力從各種孤立的數據源和上市時間下降。因為重要的DevOps延遲。需要一整年從構思到生產。磚,H&M受益於改善運作效率降低運營成本70%,改善跨團隊協作,提高業務影響time-to-insight更快。
  • Viacom18需要處理日常觀眾數據優化編程的tb。使用Hadoop data湖無法處理90天的滾動數據在sla,限製他們實現業務需求的能力。磚,他們大大降低了成本,更快的查詢時間和更少的DevOps盡管增加了數據量。Viacom18也提高團隊生產力26%完全管理平台,支持ETL、分析和大規模毫升。Beplay体育安卓版本
  • 利潔時公司集團(RB)在預測的複雜性需求在500000家門店。他們每天處理2 tb的數據在250年管道。遺留Hadoop基礎設施被證明是複雜、繁瑣,成本規模和糾結的性能。磚,RB意識到十幾倍容量體積來支持業務,98%從80年結核病2 tb數據壓縮,減少運營成本,2 x 24 x7工作更快的數據管道性能。

Hadoop從未建在雲環境中運行。盡管Hadoop雲服務進行不斷的改進與本地同行相比,兩者相比仍然落後lakehouse架構。Hadoop實例收益率低性能、低效率、高成本和無法解決更複雜的大規模數據的用例。

能否經得住時間的考驗你的數據,分析和AI-driven增長

雲遷移決策是商業決策。他們迫使企業認真審視的現實交付他們當前的係統和評估他們需要實現短期和長期目標。AI投資的勢頭繼續發展、數據分析和技術領導人需要扮演至關重要的角色思考超越現有的Hadoop架構的問題“這讓我們我們需要去哪裏嗎?”

清晰的目標關鍵技術細節,如技術映射,評估雲資源利用率和cost-to-performance,構建遷移項目,最大限度地減少錯誤和風險。但最重要的是,你需要的數據驅動的信念使用Hadoop是時候重新審視你們的關係。了解更多如何遷移從Hadoop可以加速業務成果數據的用例。


1。來源:Gartner市場數據手冊,高盛(Goldman Sachs)全球投資研究

免費試著磚
看到所有數據策略的帖子
Baidu
map