Apache Hadoop火花,:一起工作

通過離子斯托伊卡

2014年1月21日在工程的博客

分享這篇文章

我們常常問如何Apache火花適合的Hadoop生態係統,以及一個可以運行的火花在現有的Hadoop集群。這個博客的目的是回答這些問題。

首先,引發旨在增強,而不是取代,Hadoop堆棧。從第一天開始,引發旨在從和讀寫數據HDFS,以及其他存儲係統,如HBase和Amazon的S3。因此,Hadoop用戶可以豐富他們的處理能力結合使用Hadoop火花MapReduce,HBase和其他大數據框架。

第二,我們不斷致力於使它盡可能容易每個Hadoop用戶利用火花的能力。無論你運行Hadoop 1。x或Hadoop 2.0(紗),無論你是否有管理權限配置Hadoop集群不信,有一種方法讓你跑的火花!具體來說,有三種方法在Hadoop集群部署火花:獨立,紗,SIMR。

獨立部署:獨立部署可以靜態分配資源的全部或一部分機器在Hadoop集群,運行使用Hadoop火花並排,然後用戶可以運行任意火花HDFS數據工作。它的簡單性使得這許多Hadoop部署選擇1。x用戶。

Hadoop紗部署:Hadoop的用戶已經部署或計劃部署Hadoop紗可以簡單地運行火花紗,而不需要任何預裝或管理訪問權限。這允許用戶方便地集成火花在Hadoop堆棧和利用引發的全部威力,以及其他組件上運行的火花。

火花在MapReduce (SIMR):Hadoop的用戶還沒有跑紗,另一個選擇,除了獨立的部署,是使用SIMR推出火花在MapReduce工作。SIMR,用戶可以開始嚐試火花並使用它的殼後幾分鍾內下載它!這極大地降低了屏障的部署,讓幾乎所有人玩的火花。

與其他係統的互操作性

使用Hadoop不僅引發互操作,但與其他流行的大數據技術。

Apache蜂巢:通過鯊魚,火花使Apache蜂巢用戶運行他們修改的查詢速度要快得多。蜂巢是很受歡迎的數據倉庫解決方案運行Hadoop之上,而鯊魚是一個係統,允許蜂巢框架上運行的火花,而不是Hadoop。因此,鯊魚可以加速蜂巢查詢多達100 x輸入數據符合內存時,和10倍時輸入數據是存儲在磁盤上。
AWS EC2:用戶可以很容易地運行火花(鯊魚)在Amazon的EC2之上使用的腳本火花,或主持版本的火花和鯊魚在亞馬遜彈性MapReduce。
Apache便:火花便之上運行,一個集群管理器係統提供有效的資源隔離在分布式應用程序,包括MPI和Hadoop。便使細粒度的分享火花工作可以動態地利用閑置的資源在集群中在其執行。這導致相當大的性能提升,尤其是對長期運行的火花工作。