我們如何建造的磚在穀歌Kubernetes引擎(GKE)

一個集裝箱多重雲數據的方法,分析和人工智能

通過弗蘭克Munz和李高

2021年8月6日, 在工程的博客

分享這篇文章

我們發布的磚在穀歌的雲平台(GCP)是對一個統一的一個重要裏程碑數據,分析和人工智能Beplay体育安卓版本平台,確實是多重雲。磚豐富,聯合開發服務,允許你將你所有的數據存儲在一個簡單,開放lakehouse平台,是基於標準容器運行穀歌Kubernetes引擎之上(GKE)。Beplay体育安卓版本

當我們發布磚豐富,反饋是“隻是工作!”However, some of you asked deeper questions about Databricks and Kubernetes, so we’ve decided to share reasons for using GKE, our learnings and some key implementation details.

為什麼穀歌Kubernetes引擎?

開源軟件和容器

磚,開源是核心,我們是誰,這就是為什麼我們繼續創造和貢獻主要的開源項目,如Apache火花™,MLflow,三角洲湖和三角洲分享。作為一家公司,我們也回到社區和每天使用開源。

我們多年來一直在使用容器。例如,在MLflow,用戶構建機器學習(ML)模型作為碼頭工人圖像,存儲在一個容器注冊表,然後部署和運行模型從注冊表。

另一個例子是磚筆記本:版本控製容器圖像簡化支持多種火花,Python和Scala版本,和容器導致更快的迭代軟件開發和生產係統更穩定。

Kubernetes和超大型

我們充分意識到一個容器編製係統,如Kubernetes,也帶來了自身的挑戰。Kubernetes的基本概念和其豐富的功能需求一位經驗豐富的工程團隊和知識淵博的數據。

磚,然而,已經成長為一個超大型的環境在短短幾年內成功地建立在容器創建開源軟件。客戶自旋beplay体育app下载地址向上每天數以百萬計的實例,我們支持成千上萬的每月數據科學家。

安全、簡單

最重要的是提供新功能的數據工程師和科學家的數據快。在設計磚豐富,我們的工程團隊看著最好的滿足我們的安全選項,可伸縮性需求。我們的目標是簡化實現,更少關注底層基礎設施、依賴關係和實例的生命周期。Kubernetes,我們的工程師可以利用來自開源社區的強勁發展勢頭,推動基礎設施邏輯和安全。

GKE和其他穀歌雲服務

我們批判性地評估所需的操作技能和獲得的利益之間的權衡從操作大型上遊Kubernetes環境生產和最終決定不使用自我管理Kubernetes集群。

選擇GKE而不是主要原因之一是迅速采用新Kubernetes版本和Google的基礎設施安全的優先事項。Kubernetes GKE從穀歌,最初的創造者,是市場上最先進的Kubernetes管理服務。

一方麵,磚與所有關鍵集成GCP的雲服務,如穀歌雲存儲,穀歌BigQuery和穀歌美人。另一方麵,我們的實現GKE之上運行。

磚在穀歌Kubernetes引擎

把分布式係統分解為一個控製平麵和一個用戶平麵是一個著名的設計模式。控製飛機的任務管理和客戶服務的配置。數據平麵,它通常是更大的,是為執行客戶請求。

磚豐富遵循相同的模式。磚操作控製平麵的創建、管理和監視數據平麵GCP賬戶的客戶。數據平麵包含司機和執行器節點集群的火花。

GKE集群、名稱空間和自定義資源定義

當磚賬戶管理啟動一個新磚工作區,創建相應的數據平麵對GCP賬戶作為地區客戶的GKE集群在VPC(參見圖1)。有一個工作區,1:1關係GKE集群和VPC。工作區用戶從來沒有直接與數據平麵資源交互。相反,他們這樣做間接地通過控製飛機,磚執行訪問控製和資源之間的隔離用戶工作區。磚也重新分配GKE計算資源智能根據客戶使用模式,節省成本。

磚在穀歌Kubernetes引擎 — 圖1:磚使用Google Kubernetes引擎

GKE集群和節點池

GKE集群是引導係統節點池致力於運行workspace-wide可信的服務。推出一個磚集群時,用戶指定遺囑執行人節點的數量,以及機器類型司機節點和執行器節點。集群管理器,控製平麵的一部分,創建和維護一個GKE nodepool為每個這些機器類型;驅動程序和執行器節點通常運行在不同的機器類型,因此從不同的節點池。

名稱空間

Kubernetes提供名稱空間創建虛擬集群範圍名稱(因此得名)。個人磚集群通過Kubernetes彼此分離的名稱空間在一個GKE集群和單個磚工作區可以包含數百個磚集群。GCP網絡政策隔離磚集群網絡在同一GKE集群,進一步提高安全。磚集群中的一個節點隻能與同一集群中的其他節點(或使用NAT網關訪問互聯網或其它公共GCP服務)。