從基於雲的Hadoop遷移到Databricks Lakehouse平台的7個原因Beplay体育安卓版本
2022年6月9日 在Beplay体育安卓版本平台的博客
在過去幾年中,許多企業已經將其遺留的預置Hadoop工作負載遷移到基於雲的托管服務,如EMR、HDInsight或DataProc。然而,客戶已經開始beplay体育app下载地址認識到,他們在預置Hadoop環境中麵臨的相同挑戰(如可靠性和可伸縮性)也繼承到了他們現有的基於雲的Hadoop平台中。Beplay体育安卓版本他們觀察到,任何集群啟動都需要很長時間來準備,在高峰時段自動伸縮甚至需要更多時間。因此,它們維護長時間運行、配置過多的集群來管理工作負載需求。大量時間花在故障排除、基礎設施、資源管理開銷以及在雲中拚接不同的托管服務以維護端到端管道上。
最後,這會導致資源浪費,使安全和治理複雜化,並增加不必要的成本。beplay体育app下载地址客戶最終希望他們的數據團隊能夠專注於解決業務挑戰,而不是解決遺留的Hadoop平台問題。Beplay体育安卓版本
在本博客中,我們將討論從基於雲的Hadoop平台遷移到基於雲的Hadoop平台的價值和好處Beplay体育安卓版本Databricks湖屋平台Beplay体育安卓版本
以下是考慮從這些基於雲的Hadoop服務遷移到Databricks的一些顯著好處和理由。
- 使用Lakehouse平台簡化您的架構Beplay体育安卓版本
- 集中式數據治理和安全性
- 所有數據工作負載的最佳性能
- 提高生產率和業務價值
- 用數據和人工智能推動創新
- 一個與雲無關的平台Beplay体育安卓版本
- Databricks合作夥伴生態係統的好處
讓我們更詳細地討論並了解這7個原因。
1)使用Lakehouse平台簡化您的架構Beplay体育安卓版本
的Databricks Lakehouse平Beplay体育安卓版本台結合數據湖和數據倉庫的最佳元素,提供數據倉庫的可靠性、治理和性能,以及數據湖的開放性、靈活性和機器學習支持。
通常,基於雲的Hadoop平台用於特定的用例,如數據Beplay体育安卓版本工程,並且需要使用其他服務和產品來增強流、BI和數據科學用例。這導致了一個複雜的體係結構,創建了數據豎井和孤立的團隊,帶來了安全和治理挑戰。
Lakehouse平台提供了Beplay体育安卓版本一種統一的方法簡化了通過消除這些複雜性來構建數據堆棧。
2)集中數據治理和安全
Databricks通過Unity Catalog為lakakehouse數據帶來細粒度治理和安全性。Unity Catalog允許組織使用標準ANSI SQL或簡單的UI來管理細粒度的數據權限,使他們能夠安全地解鎖他們的湖屋。它跨雲和數據類型統一工作。
Unity Catalog超越了僅僅管理表到其他數據資產,如機器學習模型和文件。因此,企業可以簡化管理所有數據和人工智能資產的方式。它是企業的一個關鍵架構原則,也是客戶遷移到Databricks而不是使用基於雲的Hadoop平台的關鍵原因之一。beplay体育app下载地址Beplay体育安卓版本
在高層次上,統一目錄提供以下關鍵功能:
- 集中的元數據和用戶管理
- 集中的數據訪問控製
- 數據沿襲
- 數據訪問審計
- 數據搜索和發現
- 使用Delta sharing安全數據共享
除了Unity Catalog, Databricks還有表訪問控製(TACLs),IAM角色憑據傳遞使您能夠滿足您的數據治理需求。欲了解更多詳情,請訪問數據治理文檔.
此外,與三角洲湖,你會自然而然地從中獲益模式強製和模式演變支持開箱即用。
使用三角洲分享,您可以安全地跨組織實時共享數據,而不依賴於數據所在的平台。Beplay体育安卓版本它本機集成到Databricks Lakehouse平台,因此您可以在一個平台上集中發現、管理和治理所有共享數據Beplay体育安卓版本。
3)所有數據負載的最佳性能
beplay体育app下载地址通過遷移到Databricks,客戶可以獲得一流的性能光子引擎,它以低成本為所有類型的工作負載直接提供高速查詢性能。
- 使用Photon,大多數分析工作負載可以達到或超過數據倉庫的性能,而無需將數據轉移到數據倉庫中。
- Photon與Apache Spark™api和SQL兼容,因此啟動它就像打開它一樣簡單。
- Photon從頭開始用c++編寫,利用現代硬件實現更快的查詢,提供比其他雲數據倉庫更好的價格/性能。如欲了解更多詳情,請瀏覽博客data-warehousing-performance-record
除此之外,Databricks增強自動縮放根據工作負載量自動分配集群資源,從而優化集群利用率,對管道的數據處理延遲的影響最小。集群伸縮是基於雲的Hadoop平台的一個重要問題,在某些情況下,自動伸縮需要30分鍾。Beplay体育安卓版本
由於Databricks的性能優於基於雲的Hadoop平台,因此總體擁有成本大幅降低。Beplay体育安卓版本beplay体育app下载地址客戶同時意識到減少的基礎設施支出和更好的價格/性能。
4)提高生產率和商業價值
beplay体育app下载地址當客戶遷移到Databricks時,他們可以更快地移動、更好地協作和更有效地操作。
- Databricks消除了限製分析師、數據科學家和數據工程師之間協作的技術障礙,使數據團隊能夠更有效地一起工作。beplay体育app下载地址客戶看到數據科學家、數據工程師和sql分析師的生產率提高,從而消除了手工開銷。
- Databricks的客beplay体育app下载地址戶通過支持數據工程、數據科學和BI團隊構建端到端管道,大大加快了實現價值的時間,並增加了收入。另一方麵,他們意識到使用基於雲的Hadoop平台是不可能達到同樣的效果的,因為必須將多個服務拚接在一起才能交付所需的數據產品。Beplay体育安卓版本
隨著生產力的提高,Databricks幫助解鎖新的業務用例,加速和擴展麵向業務用例的價值實現。
Forrester最近的一項研究題為Databricks統一數據分析平台的總經濟影響™(TEI)Beplay体育安卓版本發現部署Databricks的組織幾乎實現了總經濟效益2900萬美元和一個投資回報率為417%在三年的時間裏。他們還得出結論,Databricks平台在不到6個月的時間內就能收回成本。Beplay体育安卓版本
5)用數據和人工智能推動創新
Databricks是一個全麵、統一的平台,可以滿足從數據中傳遞業務價值的所有Beplay体育安卓版本關鍵角色,如數據工程師、數據科學家和ML工程師,以及SQL和BI分析師。數據團隊的任何成員都可以快速構建端到端數據管道,從數據攝取、管理、特性工程、模型訓練和驗證到在Databricks中部署。在此基礎上,利用Lakehouse架構,數據處理可以在批處理和流處理中互換實現。
與基於雲的Hadoop平台不同,DatabricksBeplay体育安卓版本不斷努力創新,為用戶提供現代化的數據平台體驗。以下是Databricks平台的一些重要功能:Beplay体育安卓版本
Lakehouse互操作性使用δ在任何雲存儲上
Delta Lake是一種開放格式的存儲層,可為您的數據湖提供可靠性、安全性和性能—用於流處理和批處理操作。通過用結構化、半結構化和非結構化數據的單一存儲空間取代數據孤島,Delta Lake是一個具有成本效益、高度可擴展的湖屋的基礎。與其他開放格式存儲層(如Iceberg和Hudi)相比,Delta Lake是Lakehouse體係結構中性能最好、應用最廣泛的格式。
使用ETL開發Delta活動表
Delta Live Tables (DLT)是第一個ETL框架,它使用簡單的聲明性方法來構建可靠的數據管道並自動大規模管理基礎設施,這樣數據分析師和工程師就可以減少在工具上花費的時間,並專注於從數據中獲取價值。有了DLT,工程師可以將數據視為代碼,並應用現代軟件工程最佳實踐,如測試、錯誤處理、監控和文檔,以大規模部署可靠的管道。
容易和自動數據攝取與自動加載程序
最常見的挑戰之一是始終自動地從雲存儲中攝取和處理數據到您的Lakehouse。Databricks Auto Loader以流或批處理模式從雲存儲伸縮自動數據加載,簡化了數據攝取過程。
將您的倉庫引入數據湖使用磚的SQL
Databricks SQL (DB SQL)允許客戶在其數據beplay体育app下载地址湖中運行多雲湖屋架構,並提供比傳統雲數據倉庫、開源大數據框架或分布式查詢引擎高12倍的價格/性能。
管理完整的機器學習生命周期MLflow
MLflow是由Databricks開發的開源Beplay体育安卓版本平台,幫助管理完整的機器學習生命周期,具有企業可靠性、安全性和規模。人們立即意識到能夠輕鬆地執行實驗跟蹤、模型管理和模型部署的好處。
自動化您的機器學習生命周期AutoML
Databricks AutoML允許您快速生成基線機器學習模型和筆記本。ML專家可以通過快速推進通常的試錯和專注於使用他們的領域知識進行定製來加速他們的工作流程,而公民數據科學家可以通過低代碼方法快速獲得可用的結果。
建立你的特色商店在湖屋
Databricks為數據團隊提供了創建新特性、探索和重用現有特性、將特性發布到低延遲在線存儲、構建訓練數據集以及使用Databricks特性存儲檢索用於批量推理的特性值的能力。它是一個集中的特性存儲庫。它支持跨組織共享和發現特征,並確保相同的特征計算代碼用於模型訓練和推斷。
可靠的業務流程工作流
Databricks Workflows是為您的所有數據、分析和人工智能需求提供全麵管理的編排服務。您可以在任何雲上創建和運行可靠的生產工作負載,同時為最終用戶提供簡單的深度集中監控。工作流允許用戶使用Delta Live Tables構建自動管理的ETL管道,包括攝取和沿襲。您還可以將notebook、SQL、Spark、ML模型和dbt的任意組合編排為Jobs工作流,包括對其他係統的調用。
6)雲不可知的平台Beplay体育安卓版本
一個多重雲戰略對於需要一個開放平台來進行統一數據分析的組織來說,從輸入到BI和AI,都是必不可少的。Beplay体育安卓版本
- 對於多個雲中的數據,組織不能受限於一個雲的本地服務,因為它們的存在現在取決於駐留在雲存儲中的數據。
- 組織需要一個多雲平台,以一致的方式為所有團隊提供可見性、控製、安全Beplay体育安卓版本和治理,而不管他們使用哪種雲。
- Databricks Lakehouse平台使客戶Beplay体育安卓版本能夠通過使用開放標準的統一數據平台利beplay体育app下载地址用多個雲。
作為一個與雲無關的平台,DatabricBeplay体育安卓版本ks工作負載可以在任何雲平台上相似地運行,同時利用每個雲存儲上的現有數據湖。作為用戶,一旦將工作負載遷移到Databricks,就可以在任何雲上交換使用相同的開放源代碼。它降低了將您鎖定在雲原生Hadoop平台上的風險。Beplay体育安卓版本
7) Databricks Partner生態係統的好處
Databricks是現代數據堆棧的組成部分,它使數字原生代和企業能夠快速調動數據資產以做出更明智的決策。它擁有豐富的合作夥伴生態係統(全球超過450個合作夥伴),可以在數據旅程的各個階段無縫實現,從數據攝取、構建數據管道、數據治理、數據科學和機器學習到BI/儀表板。
在磚,合作夥伴聯係允許您集成您的湖屋與流行的數據平台,如dbt, Fivetran, Tableau, Labelbox等,並設置它Beplay体育安卓版本在幾次點擊與預構建集成。
與基於雲的Hadoop平台不同,使用DatabricBeplay体育安卓版本ks,隻需點擊幾下鼠標,您就可以構建端到端管道,並快速擴展您的湖屋的功能。要了解更多關於Databricks技術合作夥伴的信息,請訪問www.www.eheci.com/technology.
下一個步驟
從一個平台遷移到另一個平台並不是一個容Beplay体育安卓版本易做出的決定。它涉及到
評估當前架構,審查挑戰和痛點,並驗證新平台的適用性和可持續性。Beplay体育安卓版本然而,組織總是希望利用他們的數據做更多的事情,並通過賦予他們的數據團隊創新技術來做更多的分析和人工智能,同時減少基礎設施維護和管理負擔,從而保持競爭力。為了實現這些近期和長期目標,客戶需要一種解決方案,它超越了傳統的預置或基於雲的Hadobeplay体育app下载地址op解決方案。探索這篇博客中的7個原因,看看它們如何為你的業務帶來價值。