比較Apache SparkTM值和Databricks
Apache Spark功能可提供速度,易用性和用途優勢,包括支持各種用例的API:
- 數據集成和ETL
- 交互式分析
- 機器學習和高級分析
- 實時數據處理
Databricks建立在Spark上並添加:
- 高度可靠和性能的數據管道
- 大規模生產數據科學
기능비교
Databricks運行時 |
運行多個版本的火花 | ||
用於雲存儲訪問的內置文件係統(AWS S3,RedShift,Azure Blob) | ||
無服務器池提供SQL和Python工作負載的自動配置資源 | ||
最佳利用率的火花本地細粒資源共享 | ||
計算資源的故障隔離 | ||
更快地寫給S3 | ||
在連接和過濾器期間計算優化 | ||
快速釋放周期 | ||
自動縮放計算 | ||
自動縮放本地存儲 | ||
集群的高可用性 | ||
多用戶群集共享 | ||
點和按需實例之間的自動遷移 | ||
二級計費 |
托管三角洲湖 |
酸交易 | ||
模式管理 | ||
批次/流讀/寫支持 | ||
數據版本 | ||
性能優化 |
集成工作區 |
交互式筆記本,並支持多種語言(SQL,Python,R和Scala) | ||
實時合作 | ||
筆記本修訂曆史記錄和GitHub集成 | ||
一點擊的可視化 | ||
將筆記本發布為互動儀表板 |
生產工作和工作流程 |
火花工作監控警報 | ||
一單擊從筆記本上部署以引發作業 | ||
在筆記本中構建工作流程的API | ||
通過監控進行生產流 |
企業安全 |
訪問筆記本,集群,作業和結構化數據的控製 | ||
審核日誌 | ||
帶有SAML 2.0支持的SSO | ||
數據加密(在休息和運動中) | ||
合規性(HIPAA,SOC 2類型2) |
集成 |
通過身份驗證的ODBC/JDBC(Tableau,Looker等)連接其他BI工具 | ||
REST API | ||
數據源連接器 |
專家支持 |
工程師火花的承諾者的幫助和支持 | ||
SQL支持 |