跳轉到主要內容
Beplay体育安卓版本平台的博客

宣布封閉的公共預覽版的統一目錄在AWS和Azure

統一治理Lakehouse
分享這篇文章

更新:統一目錄現在一般用於AWS和Azure。

2021年的數據和AI峰會上,我們宣布聯合目錄統一的治理解決方案,數據和人工智能,本機內置磚Lakehouse的平台。Beplay体育安卓版本今天,我們很高興宣布聯合目錄的封閉的公共預覽AWS和Azure。

在這個博客中,我們將總結我們的願景統一目錄,後麵的一些關鍵數據治理與這個版本特性,並提供我們的未來路線圖概述。

為什麼聯合編目數據和人工智能管理?

關鍵數據和AI治理挑戰

數據的多樣性和AI的資產

增加使用的數據和數據的添加複雜性景觀給組織留下了難以管理和管理所有類型的數據相關的資產。不僅文件或表、現代數據資產采取多種形式,包括儀表板、機器學習模型和非結構化數據,如視頻和圖像遺留數據治理解決方案簡單的沒有建立管理和管理。

兩個完全不同的、不兼容的數據平台Beplay体育安卓版本

組織今天使用兩個不同的平台進行數據分析和人工智能的努力——BI數據倉庫和數據Beplay体育安卓版本湖泊大數據和人工智能。這導致數據複製在兩個平台上,提供一個主要治理挑戰很難創建一個統一的數據視圖景觀看數據存儲Beplay体育安卓版本,訪問什麼數據,且一致地跨兩個平台定義和執行數據訪問策略和不同的治理模式。

數據倉庫提供細粒度的訪問控製表、行、列、結構化數據和視圖;但是他們不提供所需的敏捷性和靈活性ML /人工智能或數據流的用例。相比之下,原生格式數據湖泊保存原始數據,提供數據團隊執行ML / AI的靈活性。然而,現有的數據湖治理解決方案不提供細粒度的訪問控製,隻支持文件和目錄的權限。數據治理湖也缺乏發現和共享數據的能力——很難發現數據分析和機器學習。

兩個完全不同的、不兼容的數據平台Beplay体育安卓版本

采用多重雲上升

越來越多的組織正在利用多重雲策略優化成本,避免廠商鎖定,滿足遵從性和隱私法規。與非標準的特定於雲的治理模型,數據治理跨雲是複雜的,需要熟悉特定於雲的安全性和治理等概念的身份和訪問管理(我)。

Lakehouse雜亂的數據治理的工具

今天,數據管理團隊有無數支離破碎的工具/服務等數據治理需求數據發現、編目、審核、共享、訪問控製等。這就不可避免地導致運營效率低下,表現不佳是因為多個服務之間的集成點和網絡延遲。

我們的願景Lakehouse統治

我們的願景背後統一目錄是為所有數據統一治理和AI資產包括儀表板、筆記本,和機器學習模型在lakehouse共同治理模型在雲,提供更好的性能和安全性。與自動數據沿襲、統一編目提供端到端可見性從源數據流在你的組織中如何消費,使數據團隊能夠快速識別和診斷數據變化的影響在他們的數據。獲得詳細的審計報告以及由誰來訪問數據是如何進行數據遵從性和安全需求。豐富的數據發現,數據為BI團隊可以很快發現和參考數據,分析和ML的工作負載,加速時間的價值。

統一目錄也本地支持三角洲分享數據共享,世界上第一個開放的協議,支持無縫的跨組織的數據共享,同時保護數據安全和隱私。

最後,統一編目還提供豐富的集成在現代數據堆棧,提供您所選擇的靈活性和互操作性杠杆工具為您的數據和人工智能的治理需求。

關鍵特性的統一目錄與這個版本可用

集中的元數據管理和用戶管理

沒有統一目錄,每個連接到一個蜂巢metastore磚工作區,並維護一個單獨的服務表訪問控製(TACL)。這需要元數據,比如視圖、表定義和acl在工作區手動同步,導致一致性數據和訪問控製問題。

統一目錄介紹了常見的交叉層空間元數據,存儲賬戶層麵為了緩解訪問團結協作,允許不同的工作區目錄元數據通過一個公共接口。此外,統一目錄中的數據權限應用於帳戶級別身份,而不是身份是當地一個工作區,讓用戶和組的一致視圖在所有工作區。

創建一個單一的事實來源與統一編目數據房地產

統一目錄還支持一致的數據訪問和政策執行工作負載在任何語言,Python開發SQL, R, Scala。

三級名稱空間在SQL

統一目錄在磚還介紹了三級名稱空間來組織數據。您可以定義一個或多個目錄,其中包含模式,進而控製表和視圖。這給數據所有者更大的靈活性來組織他們的數據,讓他們看到他們現有的注冊表蜂巢的目錄(hive_metastore),所以他們可以使用統一的目錄與他們現有的數據。

例如,你仍然可以查詢你的遺產蜂巢metastore直接:

選擇*hive_metastore.prod.customer_transactions

還可以在目錄級別區分生產數據和授予相應的權限:

選擇*production.sales.customer_address

選擇*staging.sales.customer_address

這讓您靈活地組織數據的分類選擇,跨整個企業和環境範圍。您可以使用一個目錄是一個環境範圍,一個組織範圍,或兩者兼而有之。

三級名稱空間現在還支持在磚JDBC驅動程序的最新版本,使廣泛的BI和ETL工具磚上運行。

Lakehouse統一數據訪問

統一目錄提供了一個統一的數據訪問層,為磚的用戶提供了一個簡單的、流暢的方式來定義和連接到您的數據管理表、外部表或文件,以及訪問控製管理。使用外部位置和存儲憑證,統一編目可以讀取和寫入數據在雲租戶代表你的用戶。

統一目錄允許細粒度訪問控製管理表、外部表和文件

集中式訪問控製

統一目錄集中訪問控製文件、表和視圖。它利用動態視圖的細粒度訪問控製,這樣您就可以限製對行和列的訪問授權查詢的用戶和組。

集中授權訪問權限

訪問控製表和視圖

統一目錄的當前支持細粒度的訪問控製包括列、行過濾,通過使用動態視圖的數據屏蔽。

動態視圖是一個視圖,允許您為顯示條件語句根據用戶或用戶的組成員關係。

例如下麵的視圖隻允許的(電子郵件保護)“用戶查看郵件列。

創建視圖sales_redacted作為選擇user_id,情況下current_user()=(電子郵件保護)然後電子郵件其他的“修訂”結束作為電子郵件,的國家,產品,sales_raw

訪問控製文件

外部位置控製對文件的訪問由一個外部表。例如,在上麵的例子中,我們創建了一個外部的位置s3: / /部門/融資和一個外部表s3: / /部門/金融/預測

這意味著我們仍然可以提供訪問控製文件中s3: / /部門/融資,不包括預測目錄。

例如考慮以下:

格蘭特READ_FILE外部地方財政finance_dataengs;

開放、簡單、安全的數據共享與δ共享

2021年數據+人工智能峰會期間,我們宣布三角洲分享,世界上第一個開放協議安全的數據共享。三角洲共享本地集成與統一目錄,添加細粒度的治理,使客戶和數據安全控製,使它容易和安全的內部或外部共享數據,在平台或跨雲。beplay体育app下载地址Beplay体育安卓版本

三角洲分享允許客戶安全地beplay体育app下载地址共享實時數據平台數據的跨組織獨立居住或使用。Beplay体育安卓版本組織可以共享現有的大規模數據集的基於Apache拚花和三角洲湖格式不複製數據到另一個係統。三角洲分享也讓團隊的靈活性來查詢數據,可視化和豐富共享數據使用他們選擇的工具。

三角洲共享生態係統
三角洲共享生態係統

這個版本中可用的新特性之一分區過濾,允許數據提供者分享組織的數據與不同的數據的一個子集接受者通過添加一個分區規範當添加一個表。我們也改善了三角洲共享管理和介紹接收方令牌管理選項metastore管理員。今天,metastore管理員可以使用create創建接受者接受命令和一個激活鏈接將自動生成一個數據接收方下載證書文件包括無記名令牌訪問共享數據。使用令牌管理特性,現在metastore管理員可以設置過期日期收件人不記名的令牌,令牌旋轉如果有任何安全令牌被暴露的風險。

了解更多關於δ分享磚,請訪問三角洲共享文檔(AWSAzure]。

集中的數據訪問審計

統一目錄還提供了集中的細粒度審計通過捕獲操作對數據執行的審計日誌。這使得細粒度細節訪問給定的數據集,並幫助你滿足你的合規和業務需求。

接下來會發生什麼

這隻是一個開始,有一個令人興奮的新功能即將在我們努力實現我們的願景lakehouse統一治理。下麵你可以找到一個快速的總結我們的工作:

端到端數據沿襲
統一目錄會自動捕獲運行時數據沿襲,列和行級別,提供數據團隊的端到端視圖數據流lakehouse,數據遵從性需求和快速變化的數據影響分析。

端到端數據沿襲

更深層次的集成與企業數據目錄和治理解決方案
我們正在與我們的數據目錄和治理合作夥伴授權客戶使用統一目錄與他們現有的目錄和治理解決方案。beplay体育app下载地址

數據發現和搜索
內置數據搜索和發現、數據團隊可以快速搜索和參考相關數據集,提高生產力,加速時間的見解。

治理和共享機器學習模型/儀表盤
我們還擴大治理等其他數據資產機器學習模型,儀表板,提供數據管理團隊一個窗格玻璃,管理和共享資產不同的數據類型。

細粒度的治理和基於屬性的訪問控製(abac)
我們還增加了一個強大的標記功能,允許您控製訪問多個數據項根據用戶和數據屬性,進一步簡化大規模治理。例如,您可以標記多個列如PII PII和管理訪問所有列標記為在一個規則。

在穀歌雲平台統一目錄(GCP)Beplay体育安卓版本
統一目錄對GCP的支持也快到了。

開始使用統一目錄在AWS和Azure

參觀統一目錄文檔(AWS,Azure)了解更多信息。

免費試著磚

相關的帖子

看到所有產品的帖子
Baidu
map