Apache Spark

Apache Spark是閃電統一分析引擎用於大數據和機器學習。它最初是在2009年在加州大學伯克利分校開發的。

數據處理中最大的開源項目。

自發布以來Apache Spark,統一分析引擎已經在各種行業中迅速采用了企業。Netflix,Yahoo和eBay等互聯網電力室已大規模地部署了火花,共同處理了超過8,000個節點的群集的多個數據。它很快已成為大數據中最大的開源社區,擁有來自250多個組織的1000多名貢獻者。
火花 - 阿帕奇火花

在加州大學伯克利分校(UC Berkeley)啟動Spark Research項目的團隊於2013年創立了Databricks。

Apache Spark是100%開源,托管在供應商無關的Apache Software Foundation。在Databricks,我們完全致力於維護這種開放開發模型。與Spark社區一起,Databricks通過發展和社區福音派繼續為Apache Spark項目做出重大貢獻。


Apache Spark生態係統

SPARK SQL + DATAFRAMES

結構化數據:Spark SQL

許多數據科學家,分析師和一般商業智能用戶依靠交互式SQL查詢來探索數據。Spark SQL是用於結構化數據處理的火花模塊。它提供了稱為DataFrames的編程抽象,還可以充當分布式SQL查詢引擎。它使未修改的Hadoop Hive查詢在現有部署和數據上的運行速度更快至100倍。它還與Spark生態係統的其餘部分(例如,將SQL查詢處理與機器學習集成)提供了強大的集成。

流分析:火花流

許多應用程序不僅需要處理和分析批處理數據,還需要實時處理新數據流。Spark流在Spark上運行,可以在流媒體和曆史數據上進行強大的交互式和分析應用,同時繼承Spark的易用性和容錯特性。它很容易與各種流行的數據源集成,包括HDF,Flume,Kafka和Twitter。

mllib機器學習

機器學習:mllib

機器學習迅速成為挖掘大數據以進行可行見解的關鍵作品。MLLIB建在Spark上,是一個可擴展的機器學習庫,它既可以提供高質量的算法(例如,多次迭代以提高準確性)和升級速度(比MapReduce快100倍)。該庫可作為Spark應用程序的一部分在Java,Scala和Python中使用,因此您可以將其包含在完整的工作流程中。

GraphX圖計算

圖計算:Graphx

GraphX是一個構建在Spark頂部的圖表計算引擎,使用戶能夠在大規模上進行交互,轉換和推理結構化數據。它配有一個常見算法庫。

火花核心API

一般執行:火花核心

Spark Core是SPARK平台的基礎通用執行引擎,所有其他功能都在其頂部構建。Beplay体育安卓版本它提供了內存計算功能,以提供速度,一個廣泛的執行模型,以支持各種應用程序,以及Java,Scala和Python API,以易於開發。

r
SQL
Python
Scala
爪哇

什麼是Apache Spark- Apache Spark的好處

速度

從自下而上的表演中設計,火花可能是大規模數據處理的速度比Hadoop快100倍通過在內存計算和其他優化中利用。當數據存儲在磁盤上時,Spark也很快,並且目前持有大規模盤中分類的世界紀錄。

使用方便

Spark具有易於使用的API,用於在大型數據集上操作。這包括100多個運營商的集合,用於轉換數據和熟悉的數據框架API,以操縱半結構化數據。

統一引擎

Spark包含高級庫,包括對SQL查詢,流數據,機器學習和圖形處理的支持。這些標準庫提高了開發人員的生產率,並且可以無縫組合以創建複雜的工作流程。

免費在Databricks Cloud上嚐試Apache Spark

Databricks Unified Analytics平台在開源Beplay体育安卓版本Spark,協作筆記本,集成工作流程和企業安全性上提供5倍性能 - 都在完全管理的雲平台中。beplay娱乐ios

Prova Databricks

開源Apache Spark項目可以是在這裏下載

Baidu
map