統一目錄分布式數據治理和孤立的環境
有效數據治理是必不可少的任何組織,依靠數據,分析和人工智能的操作。在許多組織中,有越來越多的人意識到集中式數據治理的價值主張。然而,即使最好的意圖,實現集中式控製很有挑戰性,沒有適當的組織過程和資源。首席數據官的角色(CDO)仍然出現在許多組織中,留下的問題誰來定義和執行跨組織的數據治理策略。
結果,負責定義和執行跨組織的數據治理策略通常是不集中,導致政策變化或跨業務線的管理機構,子單位,組織內的其他部門。為簡單起見,我們可以稱之為模式分布式控製,有一種普遍的協議區別這些理事單位,但不一定是中央數據治理功能。
在這個博客中,我們將探討使用磚實現分布式治理模型統一目錄,它提供了一個統一的數據管理解決方案,分析和lakehouse AI。
數據治理在磚的進化
統一目錄,介紹之前的工作空間的概念是鐵板一塊,每個工作都有它自己的metastore,用戶管理,表ACL存儲。這導致固有數據和治理隔離界限工作區和重複的工作地址一致性。
處理這件事,一些客戶采取運行管道或代碼同步beplay体育app下载地址metastores和acl,而其他人建立自己的自我管理metastores使用整個工作區。然而,這些解決方案增加了更多的開銷和維護成本迫使前期整個組織體係結構決策如何對數據進行分區,創建數據倉庫。
數據治理和統一目錄
為了克服這些限製,磚開發統一的目錄,旨在使它容易實現數據治理而最大化協作和共享數據的能力。實現這一目標的第一步是實現一個共同的名稱空間,允許訪問任何數據在一個組織。
這種方法可能看起來像一個挑戰前麵提到的分布式控製模式,但統一目錄提供了新的名稱空間內隔離機製,組織傳統上使用多個蜂巢metastores解決。這些隔離機製使組織獨立運作極少或完全沒有互動,也讓他們達到隔離在其他情況下,如生產和開發環境。
在磚蜂巢Metastore與統一目錄
蜂巢,metastore服務邊界,也就是說有不同metastores意味著不同的底層蜂巢托管服務和基礎數據庫。統一目錄是一個平台服務在磚LakehoBeplay体育安卓版本use平台,所以沒有考慮服務邊界。
統一目錄提供了一個共同的名稱空間,允許您管理和審計數據在一個地方。
使用蜂巢時,使用多個metastores很常見,每個都有自己的名稱空間,實現開發和生產環境之間的隔離,或允許之間的分離數據的操作單元。
在統一目錄,這些需求是通過動態隔離機製解決命名空間不妥協的數據共享和協作的能力,不需要硬單向前期體係結構決策。
在不同的團隊一起工作和環境
當使用一個數據平台,通常會有強烈需要Beplay体育安卓版本隔離界限環境如dev /刺激和商業團體之間,團隊,組織或操作的單位。
讓我們首先定義隔離邊界數據平台,如磚:Beplay体育安卓版本
- 用戶隻能訪問數據基於同意訪問規則
- 數據可以由指定的人或團隊
- 數據應該分開存儲
- 隻能在指定的環境中訪問數據
用戶隻能訪問數據基於同意訪問規則
組織通常有嚴格的要求在數據訪問基於一些組織/監管要求是保持數據安全的基礎。典型的例子包括員工薪資信息或信用卡付款信息。
對這類信息的訪問通常是定期嚴格地控製和審計。統一目錄提供了組織更細粒度的控製數據資產目錄內滿足這些行業標準。與控製,統一編目提供用戶隻能查看和查詢數據他們有權查看和查詢。
數據可以由指定的人或團隊
統一目錄使您能夠選擇集中式控製或分布式控製模型。
在集中式控製模型中,您的治理管理員metastore所有者,可以擁有任何對象並設置acl和政策。
在一個分布式治理模型,你會考慮一個目錄或一組目錄數據域。目錄的所有者可以創建和自己的所有資產和管理域中治理。因此域名的所有者可以獨立運作的其他股東在其他領域。
我們強烈建議設置一組的所有者或服務主體這兩個選項如果管理是通過工具來完成的。
數據應該分開存儲
默認情況下,當創建一個加州大學metastore,磚賬戶管理提供了一個雲存儲位置和憑證作為管理表的默認位置。
組織需要物理隔離的數據,由於監管原因,或例如在SDLC範圍、業務單位之間,甚至為成本分配的目的,應該考慮管理數據源編目和模式層麵的特性。
統一目錄允許你選擇默認的數據分開存儲。默認情況下,所有數據存儲在metastore。與管理功能支持的數據源目錄和模式,你可以物理隔離數據存儲和訪問,幫助組織實現其治理和數據管理的要求。
在創建管理表,數據將被存儲使用模式位置(如果存在)其次是目錄的位置(如果存在),並將隻使用metastore位置如果前兩個位置沒有設置。
訪問數據隻能在指定的環境中,基於這些數據的目的
通常,組織和合規要求維護需要保持一定的數據隻能在特定的環境和他人。這可能是開發和生產的一個例子,或者HIPAA PII環境包含PII數據進行分析和有特殊的訪問規則誰可以訪問允許訪問的數據和環境數據。有時需求指出,特定的數據集或域不能交叉或組合在一起。
在磚,我們考慮一個工作空間是一個環境。統一目錄有一個功能,允許您綁定的工作區目錄。這些environment-aware acl使您能夠確保隻有某些目錄可用在一個工作區,無論用戶的單個acl。這意味著metastore管理或目錄的所有者可以定義的工作區目錄可以訪問的數據。這可以通過我們的UI控製或通過API /起程拓殖,便於集成。我們甚至最近發表一篇博客如何通過起程拓殖控製統一目錄幫助滿足您的特定的治理模型。
結論
與統一目錄lakehouse架構的中心,您可以實現一個靈活的和可擴展的治理實現在不犧牲你的能力來有效地管理和共享數據。統一目錄,你可以克服現有的蜂巢metastore的限製和約束,使您能夠更容易地分離和協作數據根據您特定的業務需求。遵循統一目錄指南(AWS,Azure)開始。下載這個免費電子書數據,分析和人工智能管理了解更多關於最佳實踐構建一個數據lakehouse有效的治理策略。