Apache火花

免費試著磚

Apache火花是什麼?

Apache火花是一個開源的分析引擎用於大數據的工作量。它可以處理兩個批次以及實時分析和數據處理工作負載。Apache火花的研究項目始於2009年,加州大學伯克利分校。研究人員正在尋找一種方法來加速處理工作Hadoop係統。它是基於HadoopMapReduce它擴展了MapReduce模型有效地使用更多類型的計算,其中包括交互式查詢和流處理。火花提供了Java本機綁定,Scala, Python和R編程語言。此外,它包括幾個機器學習庫來支持構建應用程序(MLlib),流處理(火花流),和圖形處理[GraphX]。Apache火花由火花和一組核心庫。火花核心是Apache火花的核心和傳播,它負責提供分布式任務調度,和I / O功能。火花核心引擎使用彈性分布式數據集的概念(抽樣)作為其基本數據類型。抽樣的目的是它將隱藏大部分用戶的計算複雜度。火花是聰明的方式作用於數據;數據和分區聚合在一個服務器集群,它可以計算並搬到一個不同的數據存儲或瀏覽一個分析模型。你不會被要求指定文件的目的地或需要使用的計算資源以存儲或檢索文件。

彈性分布式數據集

Apache火花的好處是什麼?

Apache火花的好處

速度

火花執行快速通過在內存中緩存數據跨多個並行操作。火花的主要特征是它的內存引擎,提高了處理速度;使它100倍MapReduce處理內存時,磁盤上的快10倍,當涉及到大規模數據處理。火花使之成為可能通過減少磁盤的讀/寫操作。

實時流處理

Apache火花可以處理實時流以及其他框架的集成。火花mini-batches中攝食數據並執行這些mini-batches抽樣轉換數據。

支持多種工作負載

Apache火花可以運行多個工作負載,包括交互式查詢,實時分析,機器學習,圖像處理。一個應用程序可以無縫地結合多個工作負載。

增加可用性

支持多種編程語言的能力使其動態。它允許您快速編寫應用程序在Java中,Scala, Python,和R;給你各種各樣的語言來構建應用程序。

先進的分析

火花支持SQL查詢,機器學習,流處理和圖像處理。

額外的資源

回到術語表
Baidu
map