磚體係結構概述

Databricks統一數據分析平台,由Apache Spark的最初創造者Beplay体育安卓版本提供,使數據團隊能夠協作,以解決一些世界上最棘手的問題。

高級體係結構

Databricks的結構支持安全的跨職能團隊協作,同時保持大量的後端服務由Databricks管理,因此您可以專注於您的數據科學、數據分析和數據工程任務。

Databricks是一家控製飛機和一個數據平麵

  • 控製平麵包括Databricks在自己的AWS帳戶中管理的後端服務。筆記本命令和許多其他工作空間配置存儲在控製平麵中,並在靜止時進行加密。

  • 數據平麵是處理數據的地方。

    • 對於大多數Databricks計算,計算資源在AWS帳戶中,稱為經典的數據平麵.這是Databricks用於筆記本、作業和Classic Databricks SQL倉庫的數據平麵類型。

    • 如果啟用“Databricks SQL”的“無服務器計算”,則“Databricks SQL”的計算資源處於共享狀態Serverless數據平麵.筆記本電腦、作業和Classic Databricks SQL倉庫的計算資源仍然位於客戶帳戶的Classic數據平麵中。看到Serverless計算

您可以使用Databricks連接器,以便您的集群可以連接到它外部數據源在您的AWS帳戶之外獲取數據或進行存儲。也可以從外部獲取數據流數據來源,如事件數據、流數據、物聯網數據等。

盡管架構可能因自定義配置而有所不同,但下圖表示AWS環境中Databricks的最常見結構和數據流。

下圖描述了Classic數據平麵的總體架構。有關用於無服務器SQL倉庫的無服務器數據平麵的體係結構詳細信息,請參見Serverless計算

磚結構

您的數據湖存儲在您自己的AWS帳戶中。

工作結果存儲在你的帳戶中。

交互式筆記本結果存儲在控製平麵(用於在UI中顯示的部分結果)和AWS存儲的組合中。如果希望交互式筆記本結果隻存儲在雲帳戶存儲中,可以要求Databricks代表啟用交互式筆記本產生了客戶帳戶為你的工作空間。注意,一些關於結果的元數據,如圖表列名,繼續存儲在控製平麵中。此功能已在公共預覽

E2架構

2020年9月,Databricks發布了平台的E2版本,該版本提供:Beplay体育安卓版本

  • Multi-workspace賬戶:為每個帳戶創建多個工作空間賬戶API 2.0

  • Customer-managed vpc:在您自己的VPC中創建Databricks工作空間,而不是采用默認架構,即集群創建在單個AWS VPC中,由Databricks在您的AWS帳戶中創建和配置。

  • 安全集群連接:安全集群連通性也被稱為“無公共IP”,它允許您啟動所有節點都隻有私有IP地址的集群,從而增強了安全性。

  • 被管理服務的客戶管理鍵:(公開預覽):提供KMS密鑰,對databicks管理的控製平麵的筆記本和機密數據進行加密。

加上令牌管理、IP訪問列表、集群策略和IAM憑據傳遞等特性,E2體係結構使AWS上的Databricks平台更安全、更可伸縮、更易於管理。Beplay体育安卓版本

在E2平台上創建新帳戶(除了選定的自定義帳戶外),並且遷移了大多數現有帳戶。Beplay体育安卓版本如果您不確定您的帳戶是否在E2平台上,請與您的Databricks代表聯係。Beplay体育安卓版本