跳轉到主要內容
公司博客上

磚三角洲:一個統一的數據管理係統實時大數據

分享這篇文章

結合最好的數據倉庫,湖泊和流媒體數據

為深入了解和演示,參加網絡研討會

今天我們要介紹一種磚三角洲,一個統一的數據管理係統來簡化大規模數據管理。目前,組織建立大數據架構使用的混合係統,包括數據倉庫、數據的湖泊和流媒體係統。這大大增加成本,必然地,操作複雜性係統連接和維護變得困難。

磚三角洲是一個數據管理工具,它結合了湖的規模數據,數據倉庫的可靠性和性能,低延遲的流媒體首次在一個單一的係統。其餘的在一起磚統一分析平台Beplay体育安卓版本δ可以大大輕鬆地構建、管理,把大數據應用程序投入生產。

當前數據架構的問題

我們深入δ之前,讓我們來討論當前大數據架構難以構建、管理和維護。大多數現代數據架構的混合使用至少三種不同類型的係統:流媒體係統,數據湖泊和數據倉庫。

業務數據到達通過流媒體係統,如亞馬遜運動或Apache卡夫卡,主要專注於快速交付。數據長期存儲在數據湖泊,例如Apache Hadoop或Amazon S3,優化了大規模、超低價存儲。不幸的是,數據湖泊本身沒有支持高端業務應用程序所需的性能和特點:因此,最有價值的數據上傳至數據倉庫,為高性能優化、並發性和可靠性數據存儲成本遠高於湖泊。

這個傳統架構創建所有企業鬥爭的幾個挑戰。首先,提取-轉換-裝載(ETL)這些存儲係統之間是容易出錯且複雜的過程。數據團隊花了大部分的時間建造ETL作業。如果這些工作一天錯過一些輸入數據或包含錯誤的上傳數據,所有下遊應用程序受到影響。第二,ETL過程增加了相當大的延遲,這意味著它可以從記錄到的時候花費幾個小時的時間,當它出現在一個數據倉庫。

在Edmunds.com上執行董事格雷格Rokita技術,描述了這個問題:“在埃德蒙茲,獲得實時的客戶和收入的見解對我們的業務至關重要。但是我們一直挑戰與複雜的ETL處理減慢我們的訪問數據。”

在磚,我們看到這些問題在各種規模的組織自從我們開始。基於這些經驗,我們一直在尋找方法從根本上簡化數據管理。簡而言之,如果我們可以提供每個類型的係統的主要好處——拚湖泊、數據倉庫和流————一個統一的平台Beplay体育安卓版本,沒有昂貴的和容易出錯的ETL呢?這正是我們三角洲建成的。

磚三角洲:統一的數據管理

δ是一種新型的統一數據管理係統,它結合了最好的數據倉庫,數據湖泊、和流。三角洲運行在Amazon S3和Apache拚花等開放格式存儲數據。然而,三角洲增強S3與幾個擴展,允許它達到三個目標:

  1. 數據倉庫的可靠性和性能:δ支持事務插入,刪除,插入,查詢;這使得可靠的並發訪問的應用程序。此外,三角洲自動索引、壓縮和緩存數據;這達到100 x改進的性能/ Apache火花在拚花或運行Apache蜂巢在S3。
  2. 流媒體係統的速度:三角洲事務性包含新數據在幾秒鍾內,使這些數據立即對高性能查詢使用流或批處理。
  3. 湖的規模和成本效率的數據:三角洲在雲blob存儲像S3存儲數據。從這些係統繼承了低成本、大規模可擴展性,支持並發訪問,和高讀寫吞吐量。

與三角洲,組織不再需要存儲係統性能之間做出權衡,或者花他們的資源移動數據係統。數以百計的應用程序現在可以可靠地上傳、查詢和更新數據在大規模和低成本。

從技術的角度來看,δ達到這些目標通過實現兩個基本擴展/ S3:

  • 酸事務和
  • 自動數據索引(結合δ事務)。

這些擴展讓δ執行各種各樣的優化,同時仍然提供可靠的數據訪問應用程序,代表用戶。三角洲插入任何火花工作作為數據源,數據存儲在每個用戶的個人S3帳戶,並集成了磚企業安全提供一個完整的數據管理平台。Beplay体育安卓版本

請繼續關注更詳細的技術討論的三角洲未來的博客文章。

一個示例用例:實時的信息安全

阿裏Ghodsi, CEO磚,在他的發言中提到引發歐洲峰會δ已經在使用我們的一些大客戶。beplay体育app下载地址讓我們走過的用例磚財富100強客戶已經處理數萬億記錄每天的生產與δ。這裏是他們的需求:

  • 大量攝取低延遲體積:三角洲表需要能夠攝取每天數以萬億計的記錄與第二分鍾的延遲。
  • 數據正確性和事務更新:數據必須是正確的和一致的。寫部分和失敗不應該出現在終端用戶查詢。
  • 快速、靈活的當前和曆史數據查詢:分析人員需要分析與通用語言,像Python pb的數據;除了SQL。

花了一個二十人的團隊工程師超過6個月的時間來建立他們的遺產體係結構,包括各種數據湖泊、數據倉庫和ETL工具來滿足這些需求。即便如此,團隊隻能兩周的數據存儲在數據倉庫中由於成本,限製其向後看在時間的能力。此外,數據倉庫選擇無法運行機器學習。

使用三角洲,這家公司能夠把Delta-based架構投入生產在短短兩周的五個工程師團隊。

他們的新架構很簡單和性能。端到端延時低(秒到幾分鍾)和團隊看到100 x查詢速度的改進/開源Apache火花拚花。此外,用δ,團隊現在可以運行交互式查詢所有的曆史數據價值——不僅僅是兩周,而獲得的能力利用Apache引發機器學習和先進的分析方法。

開始使用δ

三角洲目前在技術預覽版階段與多個磚的客戶。beplay体育app下载地址這意味著目前在生產中運行,但我們仍然熨燙一些細節與熱情的顧客特別具有挑戰性的用例。beplay体育app下载地址三角洲通常不會直到明年年初但如果你有興趣參與技術預覽版,請注冊在三角洲產品頁麵,我們將聯係!

結論

而大數據應用程序已經成為所有企業的關鍵,他們仍然過於複雜的構建和緩慢。湖泊和新車型等數據λ架構不斷被提出,以簡化數據管理。與磚三角洲,我們認為我們終於做出了一個重大飛躍向這一目標。而不是添加新存儲係統和數據管理的步驟,三角洲讓組織刪除複雜性通過多個存儲係統的好處。通過結合現有係統的最佳屬性可伸縮的、低成本的雲存儲,我們相信三角洲將使極大地簡化數據架構,讓組織專注於從數據中提取價值。

對開源三角洲湖感興趣嗎?
訪問在線三角洲湖中心要了解更多,請下載最新的代碼,並加入三角洲湖社區。

免費試著磚
看到所有公司博客上的帖子
Baidu
map