Apache火花™
自從它發布以來,Apache火花統一的分析引擎,已經被廣泛行業的企業迅速采用。Netflix、雅虎和eBay等互聯網巨頭已經大規模部署了Spark,在超過8000個節點的集群上共同處理數pb的數據。它已經迅速成為大數據領域最大的開源社區,擁有來自250多個組織的1000多名貢獻者。
Apache Spark是100%開源的,托管於獨立於供應商的Apache軟件基金會。在Databricks,我們完全致力於維護這種開放的開發模式。Databricks與Spark社區一起,通過開發和社區宣傳,繼續為Apache Spark項目做出巨大貢獻。
Spark可以從自底向上的性能設計在大規模數據處理方麵,比Hadoop快100倍通過利用內存計算和其他優化。當數據存儲在磁盤上時,Spark的速度也很快,目前保持著大規模磁盤排序的世界紀錄。
Spark為大型數據集提供了易於使用的api。這包括用於轉換數據的超過100個操作符的集合,以及用於操作半結構化數據的熟悉的數據幀api。
Spark打包了更高級別的庫,包括對SQL查詢、流數據、機器學習和圖形處理的支持。這些標準庫提高了開發人員的工作效率,並且可以無縫地結合起來創建複雜的工作流。