6月的觀眾

지금등록하기

Apache火花

Apache Spark是一個閃電般的快統一的分析引擎用於大數據和機器學習。它最初是在2009年由加州大學伯克利分校開發的。

數據處理領域最大的開源項目。

自發布以來,Apache火花,這個統一的分析引擎已經被各行各業的企業迅速采用。像Netflix、Yahoo和eBay這樣的互聯網巨頭已經大規模部署了Spark,在超過8000個節點的集群上共同處理多pb的數據。它已經迅速成為大數據領域最大的開源社區,擁有來自250多個組織的1000多名貢獻者。
Spark - Apache Spark

在加州大學伯克利分校啟動Spark研究項目的團隊於2013年創立了Databricks。

Apache Spark是100%開源的,由獨立於供應商的Apache軟件基金會托管。在Databricks,我們完全致力於維護這種開放的開發模式。和Spark社區一起,Databricks繼續通過開發和社區宣傳為Apache Spark項目做出巨大貢獻。


Apache引發生態係統

Spark SQL + DataFrames

結構化數據:Spark SQL

許多數據科學家、分析師和一般商業智能用戶依賴交互式SQL查詢來探索數據。Spark SQL是一個用於結構化數據處理的Spark模塊。它提供了一個名為DataFrames的編程抽象,還可以充當分布式SQL查詢引擎。它使未修改的Hadoop Hive查詢在現有部署和數據上運行速度提高了100倍。它還提供了與Spark生態係統的其他部分的強大集成(例如,將SQL查詢處理與機器學習集成)。

流媒體

流分析:Spark Streaming

許多應用程序不僅需要處理和分析批量數據,還需要實時處理和分析新數據流。運行在Spark之上的Spark Streaming支持了強大的跨流數據和曆史數據的交互和分析應用,同時繼承了Spark的易用性和容錯特性。它很容易與各種流行的數據源集成,包括HDFS、Flume、Kafka和Twitter。

MLlib機器學習

機器學習:MLlib

機器學習已經迅速成為挖掘大數據、獲得可操作見解的關鍵部分。MLlib建立在Spark之上,是一個可擴展的機器學習庫,提供高質量的算法(例如,多次迭代以提高精度)和驚人的速度(比MapReduce快100倍)。該庫可在Java、Scala和Python中作為Spark應用程序的一部分使用,因此您可以將其包含在完整的工作流中。

GraphX圖計算

圖計算:GraphX

GraphX是一個構建在Spark之上的圖計算引擎,使用戶能夠交互式地構建、轉換和推理大規模的圖結構數據。它配有一個通用算法庫。

火花核心API

一般執行:Spark Core

Spark Core是Spark平台的底層通用執行引擎,其他所有功能都建立在它的基礎上。Beplay体育安卓版本它提供了內存中的計算能力以提高速度,提供了支持各種應用程序的通用執行模型,以及簡化開發的Java、Scala和Python api。

R
SQL
Python
Scala
Java

什麼是Apache Spark - Apache Spark的好處

速度

Spark可以從自底向上設計性能在大規模數據處理方麵比Hadoop快100倍通過在內存計算和其他優化。當數據存儲在磁盤上時,Spark的速度也很快,目前保持著大規模磁盤排序的世界記錄。

易用性

Spark有易於使用的api用於操作大型數據集。這包括用於轉換數據的100多個操作符,以及用於操作半結構化數據的常見數據幀api。

一個統一的引擎

Spark附帶了更高級的庫,包括對SQL查詢、流數據、機器學習和圖形處理的支持。這些標準庫提高了開發人員的生產力,並且可以無縫地結合起來創建複雜的工作流。

試用免費的Databricks雲上的Apache Spark

Databricks統一分析平台提供了超過開源Spark、協作筆記Beplay体育安卓版本本、集成工作流和企業安全的5倍性能——所有這些都在一個完全管理的雲平台中。beplay娱乐ios


이용해보기

開源Apache Spark項目可以在這裏下載

Baidu
map