Apache火花

Apache Spark est unMoteur d’分析unifiées超快速注入大數據和機器學習。Il首字母縮寫été conçu à l'Université de californinie à Berkeley en 2009。

樂加大項目開源de traitement de données

代理代理,Apache火花, le moteur d’analyses unifiées,一個不同部門的企業的迅速發展。Des actor essentiels du monde de l'internet telels que Netflix, Yahoo et eBay ont déployé Spark à très grande échelle, traant ensemble plusieurs peta-octets de données sur Des clusters de plus de 8 000 neure。Cette communauté開源est rapidement devenue la + important du monde du big data avec + 1 000個貢獻者+ 250個組織。
Spark - Apache Spark

L'équipe à L' origine du projet de recherche Spark à L' uc Berkeley a fondé Databricks en 2013。

Apache Spark est 100%開源,hébergé par la Fondation Apache, indépendante de tout fournisseur。Chez Databricks, nous nous engagement pleinement dans l'entretien de ce modèle de développement ouvert。主要丹斯拉主要avec la communauté Spark, Databricks繼續à貢獻者大規模au projet Apache Spark, à la fois par le développement et en faisant la promotion de la communauté。


Écosystème Apache Spark

Spark SQL + DataFrames

Données structurées: Spark SQL

De nombreux數據科學家,分析師等加上généralement utilisateurs De商業智能exploitent les requêtes SQL倒explorer des données。Spark SQL est un module Spark conçu pour le traitement de données structurées。Il apporte une couche d'abstract en programming appelée DataFrames et peut également faire office de moteur de requêtes SQL distribué。Il permet aux requêtes Hadoop Hive de s'exécuter 100 fois + vite sur les déploiements et données存在,無修改。Il apporte également un haut niveau d'intégration avec le reste de l'écosystème Spark (notamment en intégrant le traitement des requêtes SQL au機器學習)。

流媒體

流式分析:Spark流式分析

應用量變特性分析器données分批,新通量供應données臨時réel。功能基於基礎Spark, Spark流永久的應用程序分析等互動,travaillant à la fois sur des données en flux ou historiques tout en héritant de la simplicité d'utilisation et de la tolérance de panne de Spark。Il s'intègre parfaitement avec une大型遊戲de資源de données bien connues, telles que HDFS, Flume, Kafka et Twitter。

MLlib機器學習

機器學習:MLlib

Le機器學習est rapidement devenu une pièce maîtresse pour l'extraction d'information exploitables與大數據無關。Conçu sur une base Spark, MLlib est une bibliothèque de machine learning adaptive à toutes les échelles qui fournit des algorithmes de grande qualité (notamement avec plusieurs itérations pour gagner en précision) extrêmement rapides (jusqu'à 100 fois plus rapides que MapReduce)。Cette bibliothèque est utilable en java, Scala et Python sous formme d'applications Spark, si bien que vous pouvez l'inclure dans des workflow complete。

GraphX計算尺寸

計算圖形:GraphX

GraphX est un moteur de calculus de GraphX conçu sur la base de Spark。凸地利用設備,變壓器和推理設備données structurées圖形,manière交互設備à圖échelle。Il est livré avec une bibliothèque d'algorithmes communs。

API Spark Core

Exécution générale: Spark Core

Spark Core est le moteur d'exécution Spark, sur -jacent de la plateforme, sur level toutes les aures fonctionnalités。Il apporte des capacités de compute en mémoire pour加上de rapidité, un modèle d'exécution généralisé capable de prendre en charge une vaste gamme d'applications, et des API Python, Scala et java pour un développement facilité。

R
SQL
Python
Scala
Java

有阿帕奇火花嗎?|阿帕奇星火的優勢

Rapidite

Conçu de bout en bout dans une optique de performance, Spark peut s'avérer100 fois加上rapide que Hadoop pour le traitement de données à grande échelleEn explotant le calculation En mémoire et d'autres optimization。火花est également rapide sur les données stockées sur disque;Il détient à世界上真實的生命記錄à大échelle de données sur disque。

Simplicite d 'utilisation

Spark possède des API simples d'utilisation pour travailler sur de grands ensembles de données。cell -ci成分符號un ensemble de plus de 100 opérateurs pour la transformation de données et des API familières pour DataFrames permettant la manipulation de données semi-structurées。

Un moteur unifié

Spark est livré avec des bibliothèques haut niveau qui prenent en charge les requêtes SQL, les données en flux, le機器學習et le tritement de。Ces bibliothèques標準滲透劑aux développeurs de gagner en productivité et peuvent se合成器設施pour créer des flux de travail complex。

Essayez gratuement Apache Spark sur le cloud Databricks

Databricks Unified Analytics Beplay体育安卓版本Platform offre une performance 5 fois + élevée que la solution Spark開源,des notebooks collaboratifs, des workflow intégrés et et de la sécurité pour l' enterprise - le tout en une seule Platform de cloud entièrement managée。

嚐試磚

Le項目Apache Spark開源esttelechargeable ici

Baidu
map