Apache Hadoop生態係統是指各種組件的Apache Hadoop軟件圖書館;它包括開源項目以及一個完整的範圍的補充工具。一些最知名的Hadoop生態係統包括的工具HDFS,蜂巢,豬,紗,MapReduce火花,HBase Oozie Sqoop,動物園管理員,等等。這裏是主要的Hadoop生態係統組件,開發人員經常利用:
Hadoop分布式文件係統(HDFS),是一個最大的Apache項目和Hadoop的主要存儲係統。它雇傭NameNode和DataNode架構。它是一個分布式文件係統能夠存儲大文件運行的集群硬件。
蜂巢是ETL和數據倉庫工具用於查詢或分析大型數據集存儲在Hadoop生態係統。蜂巢有三大主要功能:數據彙總、查詢和分析Hadoop的非結構化和半結構化數據。它功能一個SQL接口,HQL語言類似於SQL,並自動將查詢轉化為工作的MapReduce工作。
這是一個高級腳本語言用於執行查詢中使用Hadoop的更大的數據集。豬的簡單sql的腳本語言被稱為拉丁和它的主要目標是執行所需的操作和安排的最後輸出所需的格式。
這是另一個Hadoop數據處理層。它有能力處理大型結構化和非結構化數據管理以及非常大的並行數據文件通過將工作劃分為一組獨立的任務(sub-job)。
紗代表另一個資源談判代表,但它通常被稱為的縮寫。這是一個開源的Apache Hadoop的核心組件適用於資源管理。它負責管理工作負載、監視和安全控製的實現。它還分配係統資源在Hadoop集群運行各種應用程序分配應該執行哪個任務每個集群節點。紗線有兩個主要組件:
Apache火花是一種快速、內存數據處理引擎適用於各種環境。火花可以部署在幾個方麵,以Java、Python、Scala,和R編程語言,並支持SQL,流媒體數據,機器學習和圖像處理,可以在應用程序一起使用。