數據治理的最佳實踐
本文介紹了最佳實踐數據治理,組織架構原則在下麵幾節中列出。
1。統一數據管理
管理元數據對所有資產在一個地方
作為一項最佳實踐,運行lakehouse與一個在一個帳戶統一目錄。頂層容器對象統一目錄是一個metastore。它存儲數據資產(如表和視圖)和控製訪問權限。使用單個metastore /雲區域和不訪問metastores跨區域,以避免延遲問題。
metastore提供了三級命名空間:
磚推薦使用目錄提供隔離在你組織的信息架構。通常這意味著目錄可以對應於軟件開發環境範圍,團隊,或業務單位。
跟蹤數據沿襲驅動數據的可見性
數據沿襲是一個強大的工具,可以幫助領導人推動更大的可視性和理解數據在他們的組織。它描述了從源數據的轉換和細化的洞察力。家族包括所有相關的捕獲與數據相關聯的元數據和事件的生命周期,包括數據集的來源,其他數據集被用來創建它,誰創造了它,當轉換進行了什麼,還有什麼其他的數據集使用它,和許多其他事件和屬性。數據沿襲可以用於許多數據相關的用例:
合規和審計準備:數據沿襲幫助組織跟蹤表和字段的來源。這是重要的會議很多合規監管的要求,通用數據保護規定等(GDPR),加州消費者隱私法案》(CCPA),健康保險流通與責任法案(HIPAA)、巴塞爾銀行監管委員會(BCBS) 239年,薩班斯-奧克斯利法案(SOX)。
影響分析/變更管理:經過多個轉換的數據從源到最終方向表。理解數據變更的潛在影響對下遊用戶從風險管理的角度就變得很重要。這種影響可以很容易地確定使用收集的數據沿襲統一目錄。
數據質量保證:理解一個數據集來自哪裏和什麼轉換應用提供了更好的上下文數據科學家和分析師,使他們獲得更好、更準確的見解。
調試和診斷:在一個意想不到的結果時,數據沿襲幫助團隊進行根源分析的數據跟蹤誤差回到源頭。這大大減少了調試時間。
統一目錄捕獲運行時數據沿襲在磚上運行查詢。血統是支持所有語言和捕獲到列的水平。譜係數據包括筆記本、工作流和儀表板相關查詢。血統可以可視化數據瀏覽在接近實時的磚和檢索數據沿襲REST API。
2。統一數據安全
集中訪問控製
磚Lakehouse平台提供了數據的訪問控製方法,Beplay体育安卓版本機製描述的團體或個人可以訪問哪些數據。這些語句可以非常細粒度的和具體的政策,到每個記錄的定義,每個人都有訪問權。也可以是非常富有表現力和廣泛,如金融用戶可以看到所有財務數據。
統一目錄集中訪問控製文件、表和視圖。統一目錄中的每個可獲得的對象有一個所有者。一個對象的所有者對象上的所有權限,以及可獲得的對象權限授予的特權和其他主體。統一目錄允許管理權限,並配置訪問控製通過使用SQL DDL語句。
統一目錄使用細粒度訪問控製的動態視圖,這樣您就可以限製對行和列的訪問授權查詢的用戶和組。看到創建一個動態視圖。
為進一步的信息看安全、合規和隱私-使用最小特權身份和訪問管理。
配置審計日誌記錄
磚提供審計日誌磚用戶執行的活動,讓您的企業監控詳細數據磚使用模式。有兩種類型的日誌:工作與工作空間層事件和審計日誌帳戶級別與帳戶級別事件審計日誌。
審計事件統一目錄
統一目錄捕獲一個審計日誌針對metastore執行的行動。這使管理員能夠訪問細粒度訪問給定的數據集和細節他們執行什麼操作。
審計數據共享事件
對於安全與三角洲分享分享,磚提供審計日誌監控三角洲分享活動,包括:
當有人創建、修改、更新或刪除共享或收件人。
當接收者訪問一個激活鏈接和下載證書。
當接收者訪問股票或共享表中的數據。
當一個收件人的憑據是旋轉或到期。
3所示。數據質量管理
磚Lakehouse平台提供了強大的內置數據質量管Beplay体育安卓版本理與質量控製、測試、監控、和執行,以確保準確和有用的數據用於下遊BI,分析和機器學習的工作負載。
看到可靠性——管理數據質量。