跳轉到主要內容
Beplay体育安卓版本平台的博客

磚工作區管理-賬戶的最佳實踐,工作區和Metastore管理員

三個管理員的一個故事
分享這篇文章

這個博客是我們管理的一部分要素係列中,我們討論的話題有關磚管理員。其他的博客包括我們工作區管理最佳實踐,策略與起程拓殖博士,還有更多!留意更多的內容很快和大家見麵。在過去admin-focused博客,我們已經討論了如何建立和維持一個強大的空間組織通過預先設計和自動化等方麵的博士,CI / CD,和係統健康檢查。一個同樣重要的方麵政府如何組織在你的工作區,特別是當涉及到許多不同類型的管理角色Lakehouse內可能存在的。在這個博客中,我們將討論行政事項管理工作區,例如如何:

  • 建立政策和護欄,不會過時的新員工培訓的新用戶和用例
  • 控製資源的使用
  • 保證允許的數據訪問
  • 優化計算的使用,充分利用你的投資

為了理解角色的描述,我們首先需要理解之間的區別一個帳戶管理員和工作空間管理員,和這些角色的特定組件,每個管理。

賬戶管理員對工作區管理員Vs Metastore管理員

管理關注的是跨越兩個賬戶(一個高級構造通常是1:1映射您的組織)和工作區(一個更細粒度的隔離級別可以映射不同的方式,我。e, LOB)。讓我們看看這三個角色之間的職責分離。

圖1賬戶控製台
圖1賬戶控製台

國家以不同的方式,我們可以分解的主要責任賬戶管理員如以下:

  • 供應的主體(組織/用戶/服務)和SSO賬戶層麵。聯合身份驗證指分配賬戶身份訪問級別工作區直接從帳戶。
  • 配置Metastores
  • 建立審計日誌
  • 監測使用賬戶層麵(DBU,計費)
  • 創建工作區根據所需的組織方法
  • 管理其他工作對象(存儲、憑證、網絡等)
  • 自動化開發工作負載使用IaaC消除人為因素在推動工作負載
  • 功能打開/關閉帳戶級別如serverless工作負載,三角洲共享
圖2描述工件
圖2描述工件

另一方麵,的主要擔憂工作空間管理員是:

  • 分配適當的角色在工作區級別(用戶/管理員)校長
  • 分配適當的權利(acl)工作空間層麵的主體
  • 在工作區級別可選設置SSO
  • 定義集群策略使他們能夠賦予校長
    • 定義計算資源(集群/倉庫/池)
    • 定義業務流程(工作/管道/工作流)
  • 在工作區中打開/關閉功能水平
  • 將權利分配給校長
    • 數據訪問(當使用內部/外部蜂巢metastore)
    • 管理主體的訪問計算資源
  • 管理外部url回購等特性(包括allow-listing)
  • 控製安全與數據保護
    • 關閉/限製DBFS防止意外接觸跨團隊的數據
    • 防止下載結果數據(從筆記本/ DBSQL),以防止數據漏出
    • 啟用訪問控製(工作區對象、集群、池、工作、表等)
  • 定義日誌交付在集群級別(即。,setting up storage for cluster logs, ideally through Cluster Policies)
圖3工作區構件
圖3工作區構件

總結賬戶和工作區管理之間的區別,下麵的表格捕獲分離這兩個角色之間的幾個關鍵尺寸:

賬戶管理 Metastore管理 工作空間管理
工作區管理 ——創建、更新、刪除工作區
——可以添加其他管理員
不適用 ——隻有在工作區管理資產
用戶管理 ——創建用戶、組和服務主體或從國內流離失所者使用SCIM同步數據。
——賦予主體與權限分配API工作區
不適用 ,我們建議使用中央治理的加州大學的所有數據資產(可獲得的)。聯合身份驗證將在任何工作區與統一目錄Metastore(加州大學)。
——對工作區上啟用聯合身份驗證,在帳戶級別設置SCIM所有校長和停止SCIM工作區層次。
——non-UC工作空間,您可以在工作區SCIM水平(但這些用戶也將被提升到帳戶級別身份)。
——組織在工作區中創建水平將被認為是“本地”工作空間層組和沒有統一目錄的訪問
數據訪問和管理 ——創建Metastore(年代)
——鏈接Metatore工作區(s)
——過戶metastore metastore Admin /組
統一目錄:
管理權限的所有可獲得的(目錄、模式、表、視圖)metastore
-格蘭特(委托)訪問目錄,模式(數據庫),表,視圖,外部位置和存儲憑證數據管家/所有者
——今天Hive-metastore (s),客戶使用不同的結構beplay体育app下载地址來保護數據訪問,如在AWS實例配置文件,在Azure服務主體,表acl,憑據透傳。
——統一目錄,這是在帳戶級別定義和ANSI贈款將用於所有可獲得的ACL
集群管理 不適用 不適用 ——創建集群為各種角色/尺寸/ ML / SQL角色S / M / L的工作負載
——刪除allow-cluster-create從默認的權利用戶組。
——創建集群策略,授權訪問政策適當的組
——給Can_Use權利團體SQL倉庫
工作流程管理 不適用 不適用 ——確保工作/ DLT /通用集群政策存在和組可以訪問它們
——Pre-create app-purpose集群,用戶可以重新啟動
預算管理 ——建立預算/空間/ sku /集群標簽
-監控控製台(標簽使用的賬戶路線圖)
-使用計費係統表來查詢通過DBSQL (路線圖)
不適用 不適用
優化和調整 不適用 不適用 ——計算最大化;使用最新的DBR;使用光子
-與業務部門一起工作/卓越中心的團隊遵循最佳實踐和優化,讓大部分的基礎設施投資
圖4數據磚Admin角色的責任
圖4數據磚Admin角色的責任

分級工作空間滿足峰值計算的需要

集群節點的最大數量(間接地最大的工作或並發工作的最大數量)是由中可用的最大數量的IPs VPC,因此分級VPC正確是一個重要的設計考慮。每個節點占用2 IPs(在Azure, AWS)。以下是為您選擇的雲的相關信息:AWS,Azure,GCP。我們將使用一個例子從磚AWS來說明這一點。使用CIDR映射到IP。VPC CIDR範圍允許E2工作區/ 25 - 16。至少2私人子網必須配置兩個不同的可用性區域。子網掩碼之間應該/ 16 - 17所示。vpc邏輯隔離單位和隻要2 vpc不需要說話,即對等,他們可以有相同的範圍。然而,如果是,那麼必須小心避免IP重疊。讓我們舉一個例子的VPC CIDR憤怒/ 16:

VPC CIDR / 16 馬克斯# IPs VPC:65536年 單/多節點集群在一個子網
2阿茲 如果每個AZ / 17: 32768 * 2 = = >65536年“誘導多能性”沒有其他子網是可能的 32768 IPs = > max 16384節點在每個子網
如果每個AZ / 23: = > 512 * 2 = 1024 IPs 65536 - 1024 = 64,剩下512 IPs 512 IPs = > max 256節點在每個子網
4阿茲 如果每個AZ / 18: 16384 * 4 =65536年“誘導多能性”沒有其他子網是可能的 16384 IPs = > max 8192節點在每個子網

平衡控製和靈活性工作區管理員

計算是最昂貴的組件的任何雲基礎設施的投資。數據導致創新民主化和促進自助服務的第一步是使一個數據驅動的文化。然而,在多租戶環境中,一個沒有經驗的用戶或一個無意的人為錯誤可能導致成本失控或無意的接觸。如果控製太嚴格,它將創建訪問瓶頸和扼殺創新。所以,管理員需要設置護欄,允許自助沒有固有的風險。此外,他們應該能夠監控這些控件的依從性。這就是集群政策派上用場,規則和權利定義映射的用戶允許周邊內運行,他們的決策過程大大簡化。應該注意的是,政策應支持的過程是真正有效的,這樣一個例外可以管理的過程,避免不必要的混亂。這個過程的一個關鍵步驟是刪除allow-cluster-create權利從默認用戶集團在一個工作區,以便用戶隻能使用計算由集群政策。以下是建議的集群政策的最佳實踐可以概括為以下:

  • 集群使用t恤尺寸提供標準模板
    • 通過工作負載大小(小、中、大)
    • 通過角色(/ ML / BI)
    • 通過熟練(公民/高級)
  • 管理治理的實施使用
    • 標簽:由團隊歸因、用戶用例
      • 命名應該是標準化的
      • 做一些屬性強製性的幫助一致的報告
  • 控製消費通過限製

計算考慮

與固定on-prem計算基礎設施雲給我們彈性以及靈活地匹配正確的計算工作量和SLA正在考慮。下圖顯示了各種選項。等輸入參數類型的工作負載或環境和輸出的類型和尺寸計算最佳。

公布決定正確的計算
公布決定正確的計算

例如,一個生產DE工作量應該總是在工作自動化集群最好最新的DBR、自動定量和使用光子引擎。下表了一些常見的場景。

博客img 6

工作流程注意事項

現在已經正式的計算需求,我們需要看看

  • 如何定義工作流和觸發
  • 任務如何重用計算在自己
  • 任務依賴關係將如何管理
  • 如何重試失敗的任務嗎
  • 版本升級(火花,庫)和如何補丁應用

這些工程日期和DevOps考慮以用例為中心,通常是一個管理員的直接關注。有一些衛生可以監控等任務

  • 一個工作區最大限製總數量的配置工作。但很多這些工作可能不會被調用,需要清理,讓真正的。管理員可以運行檢查,以確定有效的拆遷已經工作列表。
  • 所有生產作業應該作為一個運行服務主體和用戶訪問生產環境應該高度受限。檢查工作權限
  • 工作可以失敗,所以每一份工作應該設置故障警報和選擇重試。回顧email_notifications max_retries和其他屬性在這裏
  • 每一份工作應該與集群相關政策和標記正確歸因。

DLT:一個理想的框架的示例大規模可靠的管道

處理成千上萬的客戶不同行業垂直,大大小小的公共數據挑戰開發和操作化成為明顯的,這就是為什麼磚三角洲住表(DLT)創建的。這是一個提供簡化ETL工作負載管Beplay体育安卓版本理平台開發和維護通過允許創建聲明性管道,你指定“什麼”和“如何”。這簡化了數據工程師的任務,從而減少支持管理員的場景。

圖6 DLT簡化了管理員管理管道的作用
圖6 DLT簡化了管理員管理管道的作用

DLT包含常見的管理功能,如周期優化&真空工作進入管道的定義維護的工作,確保他們沒有額外的照顧。DLT提供深度可觀測性為簡化操作,比如管道血統、監控和數據質量檢查。例如,如果集群終止,這個平台Beplay体育安卓版本auto-retries(生產方式),而不是依靠工程師提供它明確的數據。增強自動伸縮可以處理突發數據爆發要求集群向上升級和優雅地縮減規模。換句話說,自動容錯集群擴展和管道是一個平台特性。Beplay体育安卓版本轉盤延遲使您能夠運行或批處理的管道流和移動開發管道推動相對輕鬆地通過管理配置,而不是代碼。你可以控製你的管道利用的成本DLT-specific集群政策。DLT也auto-upgrades運行時引擎,因此從管理員或數據刪除責任工程師,並允許你隻關注產生業務價值。

加州大學:一個理想的數據治理框架的例子

統一目錄(加州大學)使組織采用的通用安全模型表和文件為所有工作空間在一個賬戶,這是不可能通過簡單的GRANT語句之前。通過批準和審核所有訪問數據、表格或文件,從德/ DS集群或SQL倉庫,組織可以簡化他們的審計和監控策略不依賴per-cloud原語。加州大學提供的主要功能包括:

圖7 UC簡化了管理數據治理的管理的作用
圖7 UC簡化了管理數據治理的管理的作用

加州大學簡化了管理員的工作(包括賬戶和工作區層次)通過集中定義,監控整個metastore和可發現性的數據,使它容易安全地共享數據不管數量的工作區連接. .利用定義一次,安全無處不在模型,這額外的好處,避免意外曝光的場景數據用戶的特權無意中在一個工作區可能歪曲給他們一個後門去的數據並不是用於消費。所有這些可以很容易地利用來完成帳戶級別身份數據權限加州大學審計日誌記錄允許所有用戶全麵了解所有操作在所有各級的對象,如果你配置詳細審計日誌記錄,然後執行每個命令,從筆記本或磚SQL捕獲。可獲得的訪問可以頒發metastore管理,一個對象的所有者,或者目錄的所有者或模式,其中包含的對象。建議的戶頭級別管理委托metastore角色提名的metastore管理員的唯一目的就是給予合適的訪問權限。

建議和最佳實踐

  • 的角色和責任賬戶管理員,Metastore管理員工作空間管理員是明確的和互補的。工作流自動化、變更請求、升級等應該流到適當的所有者,工作區是否設立的LOB或由一個中央卓越中心的管理。
  • 帳戶級別身份應該使這允許集中的主要管理工作區,從而簡化管理。我們建議設置等功能SSO,SCIM審計日誌在帳戶級別。工作空間層SSO仍然是必需的,直到SSO聯邦功能是可用的。
  • 集群政策是一個強大的杠杆,為有效的自助服務和提供護欄極大地簡化了工作空間管理員的角色。我們提供一些樣品政策在這裏。帳戶管理應提供簡單的默認策略基於主要角色/ t恤尺寸,理想的情況是通過自動化等起程拓殖。工作區管理員可以添加到列表更細粒度的控製。結合一個適當的過程,可以優雅地容納所有異常情況。
  • 跟蹤所有工作負載的持續的消費類型在所有工作區是可見的帳戶管理員通過賬號控製台。我們建議設置計費使用日誌交付這一切你中央退款雲存儲和分析。預算API(預覽)應該配置在賬戶層麵,它允許賬戶管理員創建工作區閾值,SKU,集群標簽對消費水平和接收警報,以便可以采取及時的行動保持在規定的預算。使用工具等看守跟蹤使用情況在更細粒度上,以幫助確定改進領域時計算資源的利用率。
  • 磚平台繼續創新和簡化各種數據的Beplay体育安卓版本工作角色通過抽象共同管理功能平台。我們的建議是使用三角洲生活表新管道和統一目錄為你所有的用戶管理和數據訪問控製。

最後,重要的是要注意,這些最佳實踐,事實上,大多數的我們在這個博客提到,協調,和團隊合作是成功的。雖然在理論上是可能的帳戶和工作區在筒倉管理員存在,這不僅有悖於一般Lakehouse原則,使每個人生活更加困難。也許最重要的建議考慮本文遠離是連接/工作區管理員+項目/數據導致+用戶在自己的組織。團隊/鬆弛通道等機製,電子郵件別名,和/或每周聚會已被證明成功。最有效的組織,我們看到在磚是那些接受開放不僅是他們的技術,但在他們的操作。多留意admin-focused博客即將到來,從日誌和漏出的建議到激動人心的綜述功能集中在管理我們的平台。Beplay体育安卓版本

免費試著磚

相關的帖子

看到所有產品的帖子
Baidu
map