阿帕奇火花

Apache Spark是一個閃電般的速度統一的分析引擎用於大數據和機器學習。它最初於2009年在UC Berkeley開發。

數據處理中最大的開源項目。

自發布以來,阿帕奇火花統一分析引擎,在廣泛的行業中,企業迅速采用。Netflix,Yahoo和eBay等互聯網動力館在大規模規模上部署了火花,統稱在8,000多個節點的集群上處理多個Petabytes。它迅速成為大數據中最大的開源社區,來自250多個組織的1000多個貢獻者。
Spark  -  Apache Spark

在UC Berkeley啟動Spark Research項目的團隊於2013年創立了Databricks。

Apache Spark是100%開源,托管在供應商獨立的Apache軟件基礎上。在Databricks,我們完全致力於維護這個開放的開發模式。通過開發和社區傳道,Databricks與Spark社區一起繼續向Apache Spark項目貢獻。


Apache Spark Ecosystem.

Spark SQL + DataFrames

結構化數據:Spark SQL

許多數據科學家、分析師和一般的商業智能用戶都依賴於交互式SQL查詢來研究數據。Spark SQL是一個用於結構化數據處理的Spark模塊。它提供了一個稱為DataFrames的編程抽象,還可以充當分布式SQL查詢引擎。它使未修改的Hadoop Hive查詢在現有部署和數據上的運行速度提高了100倍。它還提供了與Spark生態係統其他部分的強大集成(例如,將SQL查詢處理與機器學習集成)。

流媒體

流分析:火花流

許多應用程序不僅需要處理和分析批處理數據,還需要實時處理和分析新數據流。Spark Streaming在Spark之上運行,支持跨流數據和曆史數據的強大交互和分析應用,同時繼承了Spark的易用性和容錯特性。它很容易與各種流行的數據源集成,包括HDFS、Flume、Kafka和Twitter。

MLlib機器學習

機器學習:mllib

機器學習已經迅速成為挖掘Actionable Insights的大數據的關鍵作品。MLLIB是一個基於火花的頂部,是一個可擴展的機器學習庫,可提供高質量的算法(例如,多次迭代以提高精度)和熾熱速度(比mapReduce快於100倍)。該庫可用於Java,Scala和Python,作為Spark應用程序的一部分,以便您可以在完整的工作流中包含它。

graphx.圖計算

圖計算:graphx

Graphx是一個內置於火花頂部的圖形計算引擎,使用戶能夠以比例為單獨的構建,轉換和原因。它與一個常見的算法庫完整。

火花核心API

一般執行:火花核心

Spark核心是Spark平台的基礎一般執行引擎,所有其他功能都是基於頂部的。Beplay体育安卓版本它提供內存的計算能力來提供速度,通用執行模型,以支持各種應用程序,以及易於開發的java,scala和python apis。

R.
SQL.
Python
Scala
java.

什麼是Apache Spark - Apache Spark的好處

速度

從自下而上的性能設計,火花可以是對於大規模數據處理的Hadoop速度快100倍通過利用內存計算和其他優化。當數據存儲在磁盤上時,Spark也很快,當前持有世界紀錄,用於大規模的磁盤排序。

便於使用

Spark具有易於使用的API,用於在大型數據集上運行。這包括用於轉換數據和熟悉的數據幀API的100多個運算符的集合,用於操縱半結構化數據。

統一發動機

Spark通過更高級別的庫包裝,包括支持SQL查詢,流數據,機器學習和圖形處理。這些標準庫增加了開發人員的生產力,可以無縫組合以創建複雜的工作流程。

可以在Databricks雲上免費試用Apache Spark

Databricks統一分析平台提供了5倍於開源Spark、協作筆Beplay体育安卓版本記本、集成工作流和企業安全的性能,所有這些都在一個完全托管的雲平台中。beplay娱乐ios

嚐試databricks.

開源Apache Spark項目可以是下載了這裏

Baidu
map