Apache Hadoop火花,:一起工作
經常有人問我們是如何Apache火花適合在Hadoop生態係統,以及一個如何在現有運行火花Hadoop……
我們常常問如何Apache火花適合的Hadoop生態係統,以及一個可以運行的火花在現有的Hadoop集群。這個博客的目的是回答這些問題。
首先,引發旨在增強,而不是取代,Hadoop堆棧。從第一天開始,引發旨在從和讀寫數據HDFS,以及其他存儲係統,如HBase和Amazon的S3。因此,Hadoop用戶可以豐富他們的處理能力結合使用Hadoop火花MapReduce,HBase和其他大數據框架。
第二,我們不斷致力於使它盡可能容易每個Hadoop用戶利用火花的能力。無論你運行Hadoop 1。x或Hadoop 2.0(紗),無論你是否有管理權限配置Hadoop集群不信,有一種方法讓你跑的火花!具體來說,有三種方法在Hadoop集群部署火花:獨立,紗,SIMR。
獨立部署:獨立部署可以靜態分配資源的全部或一部分機器在Hadoop集群,運行使用Hadoop火花並排,然後用戶可以運行任意火花HDFS數據工作。它的簡單性使得這許多Hadoop部署選擇1。x用戶。
Hadoop紗部署:Hadoop的用戶已經部署或計劃部署Hadoop紗可以簡單地運行火花紗,而不需要任何預裝或管理訪問權限。這允許用戶方便地集成火花在Hadoop堆棧和利用引發的全部威力,以及其他組件上運行的火花。
火花在MapReduce (SIMR):Hadoop的用戶還沒有跑紗,另一個選擇,除了獨立的部署,是使用SIMR推出火花在MapReduce工作。SIMR,用戶可以開始嚐試火花並使用它的殼後幾分鍾內下載它!這極大地降低了屏障的部署,讓幾乎所有人玩的火花。
使用Hadoop不僅引發互操作,但與其他流行的大數據技術。