Hadoop集群

什麼是Hadoop集群?

ApacheHadoop是一個開源的、基於java、軟件框架和並行數據處理引擎。它使大數據分析處理任務分解成小任務可以並行執行(如通過使用一個算法MapReduce算法),並在Hadoop集群分布。Hadoop集群計算機的集合,稱為節點,網絡在一起執行這些類型的並行計算對大數據集。與其他計算機集群,Hadoop集群是專門設計來存儲和分析質量的結構化和非結構化數據在分布式計算環境中。進一步區分Hadoop生態係統從其他計算機集群是他們獨特的結構和體係結構。Hadoop集群由一個網絡連接的主人和奴隸節點利用高可用性、低成本的硬件。線性範圍和快速添加或減去節點體積要求使他們適合大數據分析就業數據集高度可變大小。

Hadoop集群架構

Hadoop集群組成的一個網絡主節點和工人,策劃和執行各種工作在Hadoop分布式文件係統。主節點通常利用高質量的硬件和包括NameNode,二級NameNode, JobTracker,每一個單獨的機器上運行。運行的虛擬機,工人由DataNode和TaskTracker服務商品硬件,並存儲和處理工作的實際工作由主節點。的最後一部分係統客戶節點,負責加載數據並獲取結果。

主節點負責存儲數據HDFS和監督關鍵操作,如使用MapReduce運行並行計算數據。
工作者節點組成的大部分在Hadoop集群、虛擬機和執行將數據存儲和運行計算的工作。每個工人的DataNode節點和TaskTracker服務,用於接收指令從主節點。
客戶機節點負責將數據加載到集群。客戶機節點首先提交MapReduce作業描述數據需要處理,然後提取結果一旦加工完成。

在Hadoop集群大小是什麼?

Hadoop集群大小是一組度量,定義了存儲和計算能力運行Hadoop的工作負載,即:

的節點數量:主節點數量,數量的邊緣節點數量的工人節點。
每種類型節點的配置:每個節點的核數、RAM和磁盤卷。

Hadoop集群的優勢是什麼?

Hadoop集群的處理速度可以提高許多大數據分析的工作,考慮到他們的能力大的計算任務分解成小任務可以並行運行,在分布式時尚。
Hadoop集群很容易擴展,可以快速添加節點增加吞吐量,並維護處理速度,當麵對增加的數據塊。
使用低成本、高可用性硬件使Hadoop集群相對容易和便宜的建立和維護。
Hadoop集群複製數據集分布式文件係統,使其彈性集群數據丟失和失敗。
Hadoop集群能夠整合和利用來自多個不同的源係統和數據格式的數據。
可以部署Hadoop使用單節點安裝,用於評估目的。

Hadoop集群的挑戰是什麼?

問題小文件- Hadoop鬥爭和大量的小文件小於Hadoop塊大小128 mb和256 mb的違約。它不是用來支持大數據在一個可伸縮的方式。相反,Hadoop適用當有少量的大文件。最終當你增加小文件的體積,它過載Namenode商店名稱空間係統。
高處理開銷,閱讀和寫作在Hadoop可以快速的識別非常昂貴,尤其是處理大量數據。這一切都歸結於Hadoop無法做內存處理,而數據和從磁盤讀取和寫入。
隻支持批處理- Hadoop是建立大文件批量的小卷。這可以追溯到數據收集和存儲所有加工開始前完成。這最終意味著不支持流數據,不能實時處理較低的延遲。
迭代處理,Hadoop數據流結構設置在連續的階段,這使得它不可能進行迭代處理或使用毫升。

額外的資源

回到術語表