跳轉到主要內容
人工智能的數據

功能空間組織在磚上

磚管理要點:博客1/5
分享這篇文章

介紹

這個博客是我們的一部分管理要點係列中,我們將關注話題,管理和維護數據磚環境是很重要的。留意其他博客數據治理、運維&自動化,用戶管理和可訪問性,和成本跟蹤和管理在不久的將來!

2020年,磚開始釋放私人預覽統稱為幾個平台的特性Beplay体育安卓版本Enterprise 2.0(或E2);這些特性提供了下一個迭代的LakehouseBeplay体育安卓版本平台,創造了可伸縮性和安全性與力量和速度數據磚上已經可以使用了。當Enterprise 2.0是公開的,一個最值得期待的添加能夠創建多個工作區從一個帳戶。此功能打開新的可能性的合作,組織調整和簡化。我們發現以來,然而,這也引發了一係列的問題。基於我們的經驗在企業客戶的每一個尺寸,形狀和垂直,這個博客將最常見問題的答案和最佳實beplay体育app下载地址踐在磚在工作區管理;在基本層麵上,這可以歸結為一個簡單的問題:什麼時候應該創建一個新的工作區嗎?具體來說,我們將突出關鍵策略來組織你的工作區,和最佳實踐。

良好的工作空間管理是有效數據磚的基石。

工作空間的組織基礎

雖然每一個雲提供商(AWS,AzureGCP)有不同的底層架構,組織跨雲的磚工作區是相似的。邏輯頂級構造E2主賬戶(AWS)或訂閱對象(Azure磚/ GCP)。在AWS,我們提供一個E2帳戶/組織,提供了一個統一的窗格的可見性和控製所有的工作區。通過這種方式,你的管理活動是集中,能夠啟用SSO,審計日誌,統一目錄。Azure已經相對較少限製創建頂級訂閱對象;然而,我們仍然建議頂級訂閱的數量用於創建數據磚工作區盡可能多的控製。我們將稱頂級構造為一個賬戶在這個博客,是否它是一個AWS E2 GCP / Azure帳戶或訂閱。

在一個頂級的帳戶,可以創建多個工作區。推薦的最大工作空間每個賬戶在Azure在20到50之間,用一個硬限製在AWS上。這種限製來自管理開銷源於越來越多的工作區:管理協作,訪問,和安全在數以百計的工作空間可以成為一個極其困難的任務,甚至特殊的自動化流程。下麵,我們就來展示一個高級對象模型的磚。

磚帳戶的高級對象模型。

企業需要創建資源雲賬戶以支持多租戶的需求。創建單獨的雲賬號和工作區為每個新用例有一些明顯的優勢:方便成本跟蹤、數據和用戶隔離,和一個更小的爆炸半徑,以防安全事故。然而,賬戶擴散帶來一套單獨的複雜性——治理、元數據管理和協作的開銷增長以及賬戶的數量。當然,關鍵是平衡。下麵,我們首先通過一些一般考慮企業空間組織;然後,我們將通過兩個常見的工作區隔離策略,我們看到我們的客戶包括:LOB-based和產品為基礎的。beplay体育app下载地址各有優勢,劣勢和複雜性,我們將討論之前的最佳實踐。

一般工作區組織條例

在設計工作空間策略,我們經常看到客戶跳轉到的第一件事是宏觀層麵的組織選擇;beplay体育app下载地址然而,有許多低級的決定同樣重要!下麵我們編譯其中最相關的。

一個簡單的three-workspace方法

盡管我們把大部分的時間花在這個博客上談論如何把你的工作區效力最大化,有全班磚的客戶來說,一個單一的、統一的工作空間/環境不僅僅是夠了!beplay体育app下载地址事實上,這已成為越來越多的實用的功能回購,統一目錄persona-based著陸頁等。在這種情況下,我們仍然建議開發的分離,登台和生產工作區用於驗證和QA。這將創建一個環境適合小型企業或團隊敏捷價值的複雜性。

磚建議開發的分離,登台和生產工作區用於驗證和QA。

創建一套的優缺點工作區:

+沒有擔心弄亂工作區內部混合資產,或稀釋成本/使用跨多個項目/團隊;一切都是在相同的環境中

+簡單的組織意味著降低管理開銷

- - - - - -對於更大的組織,一個dev / stg /珠三角工作區是站不住腳的,因為平台限製,混亂,無法分離數據和治理問題Beplay体育安卓版本

如果一套工作區看起來正確的方法,下麵將有助於保持你的最佳實踐Lakehouse操作順利:

  • 定義一個標準化過程推動代碼之間的各種環境;因為隻有一個的環境,這可能是比用其他方法簡單。利用等特性回購秘密和外部工具,培養好CI / CD過程來確保你的自動轉換發生和順利。
  • 建立和定期審查身份提供商組映射到磚資產;因為這些組是主要的驅動程序的用戶授權策略,這是至關重要的,他們是準確的,並映射到適當的基礎數據和計算資源。例如,大多數用戶可能不需要訪問生產工作區;隻有少數的工程師或管理員的權限。
  • 留意你的使用和了解磚資源限製;如果您的工作空間中使用或用戶計數開始成長,您可能需要考慮采用一個更涉及空間組織策略避免per-workspace限製。利用資源標簽盡可能以跟蹤成本和使用指標。

利用沙箱工作區

在本文中提到的任何策略,一個沙箱環境是一個很好的實踐允許用戶培育和發展不那麼正式,但仍可能有價值的工作。至關重要的是,這些沙箱環境中需要平衡的自由探索與防止無意中實際數據(或故意)影響生產工作負載。一個常見的最佳實踐等工作區是主機在一個完全獨立的雲賬戶;這大大限製了用戶的爆炸半徑在工作區中。同時,建立簡單的護欄(比如集群政策,限製數據訪問“玩”或潔淨的數據集,和關閉出站連接在可能的情況下)意味著用戶可以相對自由去做(幾乎)無論他們想做什麼不需要持續的管理監督。最後,內部溝通同樣重要;如果用戶無意中構建一個了不起的應用程序在沙箱,吸引了成千上萬的用戶,或期望生產級支持他們的工作在這樣的環境下,這些行政儲蓄將會很快蒸發。

對沙箱工作區最佳實踐包括:

  • 使用一個單獨的雲賬戶,不包含敏感或生產數據。
  • 建立簡單的護欄,這樣用戶可以相對自由的環境,無需管理監督。
  • 溝通清楚,沙箱環境“自助服務”。

數據隔離和敏感性

日益突出的敏感數據在我們的客戶在所有垂直;beplay体育app下载地址數據一旦有限的衛生保健提供者或信用卡處理器現在成為理解病人分析源或客戶情緒,分析新興市場,定位新產品,幾乎任何你能想到的。這些財富的數據有很高的潛在風險,與不斷增長的數據泄露的威脅;出於這個原因,保持敏感數據隔離和保護是很重要的無論你選擇什麼組織策略。磚提供了一些方法保護敏感數據(如acl和安全的共享),並結合雲提供商工具,可以使Lakehouse構建盡可能低風險。周圍的一些最佳實踐數據隔離和敏感性包括:

  • 理解你的獨特的數據安全需求;這是最重要的一點。每個企業都有不同的數據和你的數據將推動您的治理。
  • 適用的政策和控製存儲水平和metastore。S3政策和ADLS acl應該總是使用least-access原則的應用。利用統一編目應用一個額外的控製數據訪問層。
  • 分開你的敏感數據在邏輯上和物理上的敏感數據;許多客戶使beplay体育app下载地址用雲完全獨立帳戶(和磚工作區)敏感和不敏感數據。

博士和區域備份

災難恢複(DR)是一個廣泛的話題,重要的是你是否使用AWS,AzureGCP;我們不會覆蓋所有在這個博客,但是將更加關注如何博士和地區因素發揮到工作空間的設計。在這種背景下,博士意味著工作空間的創建和維護一個單獨的區域從標準生產工作區。

在磚、災難恢複iimplies工作空間的創建和維護在一個單獨的區域從標準生產工作區。

博士的策略可以根據業務的需要相差很大。例如,一些客戶更願意保持一個actibeplay体育app下载地址ve - active配置,所有資產從一個工作空間不斷複製到第二個工作空間;這提供了最大數量的冗餘,但也意味著複雜性和成本(不斷地傳送數據區域和執行對象複製和重複數據刪除技術是一個複雜的過程)。另一方麵,一些客戶喜歡做最低必要的,以確保業務連beplay体育app下载地址續性;第二個工作區可能包含很少,直到故障轉移發生時,或隻能備份在一個偶爾的基礎上。確定正確的故障級別是至關重要的。

無論你選擇實現什麼博士的水平,我們建議如下:

  • 您選擇的代碼存儲在一個Git倉庫,on-prem或在雲中,並使用等特性回購同步盡可能磚。
  • 隻要有可能,在結合使用三角洲湖深克隆複製數據;這提供了一種簡便的,開源的方式有效的備份數據。
  • 使用你的雲提供商提供的原生雲工具來執行備份的數據不是存儲在三角洲湖,外部數據庫、配置等。
  • 使用工具,如起程拓殖備份對象(如筆記本電腦、就業、秘密、集群和其他工作區對象。

記住:磚負責維護地區空間基礎設施的控製平麵,但你是負責workspace-specific資產,以及雲基礎設施依賴您的生產工作。

隔離的業務線(LOB)

現在我們深入實際的組織在一個企業環境的工作區。LOB-based項目隔離的傳統enterprise-centric看待IT資源的方式,這也帶來了許多的傳統強項和弱點LOB-centric對齊。因此,對於很多大公司來說,這種方法工作區管理自然會來。

LOB-based工作區策略,每個功能單元的業務將得到一組工作區;傳統上,這將包括開發、分期和生產工作區,盡管我們已經看到客戶10中間階段,每個潛在的與自己的工作區(不推薦)!beplay体育app下载地址在開發代碼編寫和測試,然後提升STG(通過CI / CD自動化),最後降落在珠江三角洲,它運行作為一個預定工作,直到被棄用。環境類型和獨立LOB的主要原因是啟動一個新的工作空間在這個模型;這樣做對於每個用例或數據產品可能是過度的。

一個潛在的方式行of-business-based工作區可以結構化。

上麵的圖表顯示了一個潛在的方式LOB-based工作區可以結構化;在這種情況下,每個LOB都有一個單獨的雲賬戶和一個工作區在每個環境中(dev / stg /珠三角),還有一個專門的管理。重要的是,所有這些工作區屬於同一個數據磚賬戶,並利用統一目錄相同。一些變化將包括共享雲賬戶(和潛在的底層資源如vpc和雲服務),使用一個單獨的/ dev / stg prd雲賬戶,或創建單獨的外部metastores每個LOB。這些都是合理的方法,很大程度上取決於業務需求。

總的來說,有很多好處,以及一些缺點LOB的方法:

+每個LOB資產可以被孤立,從雲的角度和從一個工作空間的角度來看;這使得簡單的報告/成本分析,以及更少的淩亂的工作區。

+明確的用戶和角色分工提高了Lakehouse的總體治理,並降低總體風險。

+自動化的推廣環境之間創造了一個高效、低開銷的過程。

- - - - - -前期規劃需要確保跨lob的流程標準化,這整個磚賬戶不會打擊平台限製。Beplay体育安卓版本

- - - - - -自動化和管理進程需要專家建立和維護。

作為最佳實踐,我們建議以下這些構建LOB-based Lakehouses:

  • 采用一種最小特權使用細粒度的訪問控製用戶訪問模型和環境;一般來說,很少有用戶應該生產訪問,與這個環境的交互應該自動化和高度控製。捕捉這些用戶和組身份提供者和他們Lakehouse同步。
  • 理解和計劃對雲提供商和磚平台限製;Beplay体育安卓版本其中包括,例如,工作區,API ADLS率限製,在運動流節流等。
  • 使用一個標準化的metastore /目錄盡可能強烈的訪問控製;這允許重用資產在不影響隔離。統一目錄允許細粒度控製表和工作空間的資產,其中包括對象等MLflow實驗。
  • 利用數據共享lob之間盡可能安全地共享數據,而不需要重複的努力。

數據產品隔離

我們做什麼當LOB需要協作的跨專業,或者當一個簡單的/ dev / stg prd模型並不適合我們的LOB的用例?我們可以擺脫一些嚴格的禮儀LOB-based Lakehouse結構和擁抱一個稍微現代的方法;我們稱之為空間隔離的數據產品。隔離的概念,而不是嚴格的LOB,我們分離而不是由頂級項目,給每一個生產環境。我們也混合在共享開發環境,以避免工作空間擴散,使資產簡單的重用。

數據產品隔離:而不是由LOB嚴格隔離,我們分離而不是由頂級項目,給每一個生產環境。

乍一看,這類似於LOB-based隔離,但有一些重要的區別:

  • 共同開發工作區,單獨為每個頂級項目工作區(這意味著每個LOB可能有不同的工作區總體的數量)
  • 沙箱工作空間的存在,這是特定於一個LOB,比傳統開發和提供更多的自由和更少的自動化工作區
  • 共享資源和/或工作區;在LOB-based架構這也是可能的,但往往是複雜的嚴格分離

這種方法具有很多相同的長處和短處,LOB-based隔離,但是提供了更多的靈活性,強調項目的價值現代Lakehouse。越來越多,我們看到這成為空間組織的“黃金標準”,相應的運動技術主要是使其值生成器。一如既往,業務需求可能驅動輕微偏離這個示例架構,如專用dev / stg /珠三角尤其是大型項目,跨lob的項目,或多或少雲資源的隔離,等。不管具體結構,我們建議以下最佳實踐:

  • 分享數據盡可能和資源;雖然種族隔離的治理和基礎設施和工作區是有用的跟蹤、資源增殖迅速變成了一種負擔。提前仔細分析將有助於識別領域的重用。
  • 即使沒有分享項目之間廣泛,使用共享metastore如統一目錄,共享種代碼基底(通過,即。回購)在可能的情況下。
  • 使用起程拓殖(或類似工具)來自動化的過程創建、管理和刪除工作區和雲基礎設施。
  • 通過沙箱環境中為用戶提供靈活性,但確保這些適當的護欄設置限製集群大小,數據訪問等。

總結

充分利用所有的好處Lakehouse和支持未來的增長和可管理性,應該小心計劃工作空間布局。其他相關的工件,需要考慮在這個設計包括一個集中模型注冊、代碼庫和目錄援助合作在不影響安全。總結的一些最佳實踐突出在這篇文章中,我們主要外賣下麵列出:

最佳實踐# 1:減少的數量高級賬戶(雲提供商和磚級別)在可能的情況下,和創建一個工作區隻有當分離是必要的對於合規,隔離,或地理限製。有疑問時,保持簡單!

最佳實踐# 2:決定一個隔離策略,將提供您長期的靈活性,沒有不必要的複雜性。有關你需要的實際問題和實施嚴格的指導方針之前你Lakehouse開始斜坡彎道工作量;換句話說,測量兩次,一次!

最佳實踐# 3:自動化雲過程。這個範圍基礎設施的方方麵麵(其中許多將在以下博客!),包括SSO / SCIM, Infrastructure-as-Code起程拓殖等工具,管道和CI / CD回購、雲備份和監控(使用原生雲和第三方工具)。

最佳實踐# 4:考慮建立企業級中央治理COE團隊戰略,重複的數據和模板化和自動化機器學習管道,這樣不同的數據團隊可以使用自助服務功能有足夠的護欄。COE團隊往往是一個輕量級但關鍵數據中心團隊和應該視圖本身作為一個推動者——維護文檔,安撫、教程和常見問題解答其他用戶教育。

最佳實踐# 5:Lakehouse提供一定程度的數據湖並不治理;利用!評估你的合規和治理需要建立你的Lakehouse的第一步驟,並利用磚提供的功能,以確保風險最小化。這包括審計日誌交付,HIPAA和PCI(如適用),適當的漏出控製,使用acl和用戶控件,定期複習上麵的所有。

我們會提供更多管理最佳實踐在不久的將來,博客主題從用戶管理數據治理。同時,接觸你的磚賬戶在工作區管理團隊問題,或者如果你想了解更多關於最佳實踐的磚Lakehouse平台!Beplay体育安卓版本

免費試著磚

相關的帖子

看到所有最佳實踐的帖子
Baidu
map