Apache火花^™

Apache Spark是一個閃電般的速度統一分析引擎為了大數據和機器學習。它最初於2009年在加州大學伯克利分校開發。

數據處理領域最大的開源項目。

自從它發布以來，Apache火花統一的分析引擎，已經被廣泛行業的企業迅速采用。Netflix、雅虎和eBay等互聯網巨頭已經大規模部署了Spark，在超過8000個節點的集群上共同處理數pb的數據。它已經迅速成為大數據領域最大的開源社區，擁有來自250多個組織的1000多名貢獻者。
Spark - Apache Spark

在加州大學伯克利分校啟動Spark研究項目的團隊於2013年成立了Databricks。

Apache Spark是100%開源的，托管於獨立於供應商的Apache軟件基金會。在Databricks，我們完全致力於維護這種開放的開發模式。Databricks與Spark社區一起，通過開發和社區宣傳，繼續為Apache Spark項目做出巨大貢獻。

Apache Spark生態係統

Spark SQL + DataFrames

流媒體

MLlib機器學習

GraphX圖計算

Spark Core API

R

SQL

Python

Scala

Java

什麼是Apache Spark - Apache Spark的好處

速度

Spark可以從自底向上的性能設計在大規模數據處理方麵，比Hadoop快100倍通過利用內存計算和其他優化。當數據存儲在磁盤上時，Spark的速度也很快，目前保持著大規模磁盤排序的世界紀錄。

易用性

Spark為大型數據集提供了易於使用的api。這包括用於轉換數據的超過100個操作符的集合，以及用於操作半結構化數據的熟悉的數據幀api。

統一引擎

Spark打包了更高級別的庫，包括對SQL查詢、流數據、機器學習和圖形處理的支持。這些標準庫提高了開發人員的工作效率，並且可以無縫地結合起來創建複雜的工作流。

在Databricks雲上免費試用Apache Spark

Databricks統一分析平台提供了5倍於開源Spark、協作筆Beplay体育安卓版本記本、集成工作流和企業安全性的性能-所有這些都在一個完全管理的雲平台中。beplay娱乐ios

試著磚

開源Apache Spark項目可以在這裏下載

Apache火花^™

Apache Spark是一個閃電般的速度統一分析引擎為了大數據和機器學習。它最初於2009年在加州大學伯克利分校開發。

數據處理領域最大的開源項目。

在加州大學伯克利分校啟動Spark研究項目的團隊於2013年成立了Databricks。

Apache Spark生態係統

結構化數據:Spark SQL

流式分析:Spark流式

機器學習:MLlib

圖計算:GraphX

一般執行:Spark Core

什麼是Apache Spark - Apache Spark的好處

速度

易用性

統一引擎

在Databricks雲上免費試用Apache Spark

Apache火花™

Apache Spark是一個閃電般的速度統一分析引擎為了大數據和機器學習。它最初於2009年在加州大學伯克利分校開發。

數據處理領域最大的開源項目。

在加州大學伯克利分校啟動Spark研究項目的團隊於2013年成立了Databricks。

Apache Spark生態係統

結構化數據:Spark SQL

流式分析:Spark流式

機器學習:MLlib

圖計算:GraphX

一般執行:Spark Core

什麼是Apache Spark - Apache Spark的好處

速度

易用性

統一引擎

在Databricks雲上免費試用Apache Spark

Apache火花^™