Hadoop生態係統:
Hadoopエコシステム

Hadoopエコシステムとは

Apache Hadoopエコシステムとは,Apache Hadoopソフトウェアライブラリのさまざまなコンポーネントを指します。オプンソスプロジェクトだけでなく，補足ルの全てが含まれます。Hadoopエコシステムの最もよく知られているルには，HDFS Hive Pig YARNMapReduce， Spark, HBase Oozie, Sqoop, Zookeeper，などがあります。開発者が頻繁に使用する主要なHadoopエコシステムコンポ，ネントは次のとおりです。

HDFSとは

Hadoop分散ファereplicationルシステム(HDFS)は最も大きいApacheプロジェクトとHadoopのプライマリストレージシステムの1つで,ネームノードとデータノードのアーキテクチャを採用しています。コモディティハードウェアのクラスタ上で実行されている大きなファイルを格納できる分散ファイルシステムです。

Hiveとは

蜂巢は,Hadoopエコシステム內に格納されている大規模なデータセットをクエリまたは分析するために使用される,ETLおよびデータウェアハウスツールです。蜂巢には,Hadoopの非構造化データと半構造化データの要約,クエリ,分析という3つの主要な機能があります。SQLに似たインターフェースであるHQL言語を備えており,SQLと同様に動作し,クエリをMapReduceジョブに自動的に変換します。

Apache Pigとは

豬は,Hadoop內で使用される大規模なデータセットのクエリを実行するために使用される,高レベルスクリプト言語です。豬の単純なSQLのようなスクリプト言語は拉丁語と呼ばれ,その主な目的は,必要な演算を実行し,最終的な出力を目的の形式で準備することです。

MapReduceとは

MapReduceは，Hadoopの別のデ，タ処理層です。大規模な構造化データと非構造化データを処理する機能を備えている他,ジョブを獨立したタスク(サブジョブ)のセットに分割して,非常に大きなデータファイルを並行して管理できます。

紗線とは

YARNは，另一個源導航器の頭字語をとった略語です。リソース管理に適したオープンソースApache Hadoopのコアコンポーネントの1つであり,ワークロードの管理,監視,およびセキュリティ製禦の実裝を擔當します。また,Hadoopクラスタで実行されているさまざまなアプリケーションにシステムリソースを割り當てると同時に,各クラスタノードで実行するタスクを割り當てます。紗線には，2の主要なコンポネントがあります。

リソスマネジャ
ノドマネジャ

Apache Sparkとは

Apache火花はさまざまな狀況での使用に適した,高速なメモリ內データ処理エンジンです。引發は,いくつかの方法で展開することができ、Java、Python、Scala, Rのプログラミング言語を備え,SQL,ストリーミングデータ,機械學習,およびグラフ処理をサポートしているため,これらをアプリケーション內で一緒に使用できます。 Apache Spark - Hadoop生態係統