比較Apache火花TM和磚
Apache Spark的功能提供了速度、易用性和廣泛的使用優勢,包括支持一係列用例的api:
- 數據集成和ETL
- 互動分析
- 機器學習和高級分析
- 實時數據處理
Databricks構建於Spark之上,並添加:
- 高可靠性和高性能的數據管道
- 大規模的生產性數據科學
特征比較
磚運行時 |
運行多個Spark版本 | ||
內置為雲存儲訪問優化的文件係統(AWS S3, Redshift, Azure Blob) | ||
無服務器池為SQL和Python工作負載提供自動配置資源 | ||
spark本地細粒度資源共享,以實現最佳利用 | ||
計算資源故障隔離 | ||
更快地寫入S3 | ||
在連接和過濾器期間進行計算優化 | ||
快速的發布周期 | ||
伸縮計算 | ||
伸縮本地存儲 | ||
集群的高可用性 | ||
多用戶共享集群 | ||
在現貨和按需實例之間自動遷移 | ||
第二級計費 |
管理三角洲湖 |
ACID事務 | ||
模式管理 | ||
批處理/流讀/寫支持 | ||
數據版本控製 | ||
性能優化 |
集成工作區 |
交互式筆記本,支持多種語言(SQL, Python, R和Scala) | ||
實時協作 | ||
筆記本修訂曆史和GitHub集成 | ||
一鍵式可視化 | ||
將筆記本發布為交互式儀表板 |
生產工作和工作流程 |
Spark作業監視警報 | ||
從筆記本電腦到Spark Jobs的一鍵式部署 | ||
在筆記本中構建工作流的api | ||
帶監控的生產流 |
企業安全 |
對筆記本、集群、作業和結構化數據的訪問控製 | ||
審計日誌 | ||
支持SAML 2.0的SSO | ||
數據加密(靜態和動態) | ||
符合標準(HIPAA, SOC 2 2型) |
集成 |
通過認證的ODBC/JDBC連接其他BI工具(Tableau, Looker等) | ||
REST API | ||
數據源連接 |
專家支持 |
Spark工程師的提交者的幫助和支持 | ||
SQL支持 |