跳轉到主要內容
Beplay体育安卓版本平台的博客

介紹磚統一目錄:Lakehouse細粒度數據治理和人工智能

分享這篇文章

更新:統一目錄現在一般在AWS, Azure和豐富。

數據係統,如湖S3, ADLS和GCS大多數數據存儲在今天的企業由於可伸縮性、低成本、和開放接口。隨著時間的推移,這些係統也成為一個有吸引力的地方,由於過程數據lakehouse技術,如三角洲湖支持ACID事務和快速查詢。然而,一個領域數據湖泊仍難以管理比傳統數據庫管理;到目前為止,這些係統隻提供工具來管理權限在文件級別(例如S3和ADLS acl),使用特定於雲的概念,比如我不熟悉的大多數數據專業人員的角色。

這就是為什麼我們非常高興宣布統一目錄,細粒度lakehouse數據治理和安全使用熟悉,開放接口。統一目錄允許組織管理細粒度數據權限使用標準ANSI SQL或一個簡單的UI,使他們能夠安全地打開lakehouse廣泛的內部消費。它統一在雲層和數據類型。最後,它超越管理表來管理其他類型的數據資產,如毫升模型和文件。因此,企業得到一個簡單的方法來管理他們的數據和艾城的資產:

統一目錄,一個新產品,將細粒度的治理和安全lakehouse係統使用一個開放的接口,同時保留所有數據湖泊的好處。

今天數據湖治理工具有什麼困難嗎?

盡管所有的雲存儲係統(例如S3, ADLS和gc)提供安全控製的今天,這些工具造成的成為特定於雲計算的漏洞,這兩個原因問題組織擴大規模。我們經常看到客戶遇到四個問題:beplay体育app下载地址

  • 缺乏細粒度(行、列和視圖級別)安全:雲數據湖泊通常隻可以設置文件或目錄的權限級別,因此很難分享隻與特定的用戶表的一個子集。這使它乏味在企業用戶不應該對整個表的訪問。
  • 治理與物理數據布局:因為治理控製是在文件級別,數據團隊必須精心結構來支持他們的數據布局所需的政策。例如,一個團隊可能數據分割成不同的目錄由國家和給每個目錄訪問到不同的組。但當治理規則改變團隊應該做什麼?如果不同的州在一個國家采用不同的數據規定,組織可能需要重組其所有數據。
  • 非標準,成為特定於雲計算的漏洞的接口:雲治理api如我不熟悉數據專業人員(例如,數據庫管理員),和不同的雲。今天,越來越多的企業開始在多個雲存儲數據,(例如,滿足隱私法規),所以他們需要能夠在雲管理數據。
  • 不支持其他資產類型:數據治理湖api工作文件在湖中,但是現代企業工作流產生廣泛的其他類型的數據資產。例如,SQL工作流通常圍繞著觀點,數據科學工作負載產生毫升模型,許多工作負載連接到數據源之外的其他湖泊(例如,數據庫)。在現代合規景觀,這些資產需要適用同樣的方式,如果他們包含敏感數據。因此,數據團隊已經在許多不同的係統重裝相同的安全策略。

統一目錄的方法

統一目錄解決這些問題通過實現細粒度的數據治理方法基於開放標準的跨數據資產類型和雲。它是圍繞四個關鍵設計原則:

  • 細粒度的權限:統一目錄可以執行權限的數據行,列或視圖級別而不是文件,所以,你可以分享你的數據有一個新用戶沒有複製它。
  • 一個開放的、標準的接口:統一目錄的許可模型基於ANSI SQL,立刻使其熟悉任何數據庫專業。我們還建立了一個用戶界麵,使治理容易數據管家,我們擴展SQL模型支持基於屬性的訪問控製,允許您標記很多對象具有相同的屬性(例如,“PII數據”)和一個政策適用於所有的人。最後,基於相同的SQL接口可以用來管理毫升模型和外部數據源。
  • 中央控製:統一目錄可以跨多個數據磚工作區、地理區域和雲層,允許您管理所有企業數據集中。這個中心位置也使它來跟蹤血統和審計所有的訪問。
  • 從任何平台安全訪問:Beplay体育安卓版本雖然我們愛磚平台,我們知道,很多客戶也會從其他平台訪問數據,他們Beplay体育安卓版本想讓他們的治理規則在他們工作。beplay体育app下载地址統一目錄執行安全權限從任何客戶機連接到JDBC / ODBC或通過三角洲分享,開放協議我們已經推出了交換範圍廣泛的平台之間的大型數據集。Beplay体育安卓版本

讓我們看看如何使用統一目錄來實現共同治理任務。

輕鬆地管理權限使用ANSI SQL

統一編目帶來細粒度的集中式控製所有數據資產跨雲通過開放標準ANSI SQL數據控製語言(DCL)。這意味著管理員可以輕鬆地授予許可任意特定於用戶的使用熟悉的SQL子集的數據,不需要學習一個晦澀難懂的,特定於雲的接口。我們還添加了一個強大的標記功能,允許您控製訪問多個數據項基於屬性進一步簡化大規模治理。

下麵是幾個例子如何使用SQL grant語句的聯合目錄權限添加到現有的數據存儲在您的數據。

首先,你可以在目錄中創建表從頭開始或通過指向現有數據在雲存儲係統中,如S3,訪問特定於雲的憑證:

創建外部iot_events位置s3:/憑據iot_iam_role

現在,您可以簡單地使用SQL標準格蘭特語句設置權限,如任何數據庫。下麵是一個例子,如何把權限授予iot_events等整個團隊工程師,或日期和國家列營銷組:

格蘭特選擇iot_events工程師格蘭特選擇(日期、國家)iot_events市場營銷

統一目錄也理解SQL視圖。這允許您創建SQL視圖在一個複雜的方式聚合數據。下麵是如何使用基於訪問控製授予訪問business_analysts隻有一個版本的數據:

創建視圖aggregate_data作為選擇日期、國家(*)作為num_eventsiot_events集團通過日期、國家格蘭特選擇aggregate_databusiness_analysts

此外,統一目錄允許你設置政策在許多項目使用屬性(基於屬性的訪問控製),一種強大的方法來簡化大規模治理。例如,您可以標記多個列如PII PII和管理訪問所有列標記為在一個規則:

改變iot_events添加pii屬性電子郵件改變用戶添加pii屬性電話格蘭特選擇數據庫iot_data屬性(pii)product_managers

最後,相同的屬性係統允許您輕鬆地管理MLflow模型和其他對象在一個一致的方式與你的原始數據:

格蘭特執行模型屬性(eu_data)eu_product_managers

在UI中發現和管理數據資產

統一目錄的UI很容易發現、描述、審計和管理數據資產在一個地方。視覺上,數據管理員可以設置或審查所有權限和目錄捕獲的審計和血統信息顯示您如何產生和訪問每個數據資產。UI設計的合作,這樣的數據用戶可以記錄每個資產和看誰使用它。

聯合編目數據管家UI使它容易自信地管理和安全的數據訪問滿足遵從性和隱私的需求,直接在lakehouse。
合規和隱私和安全的數據訪問,以滿足需求,直接在lakehouse。

共享數據組織與三角洲地區共享

每個組織都需要共享數據與客戶、合作夥伴和供應商合作。beplay体育app下载地址統一目錄實現開源三角洲分享跨組織標準讓你安全地共享數據,不管他們運行在雲計算平台或(任何三角洲共享客戶端可以連接到數據)。Beplay体育安卓版本

共享數據組織與三角洲地區共享

開放的接口,以方便訪問

統一編目工作與您現有的目錄、數據存儲和計算係統你可以利用現有投資,建立一個不會過時的治理模型。它可以掛載現有數據Apache蜂巢Metastores或雲存儲係統,如S3, ADLS和GCS不動它。它還與治理平台Privacera和Immuta讓你自定義工作流管理Beplay体育安卓版本對數據的訪問。最後,我們設計了統一目錄,這樣你也可以訪問它的計算平台除了磚:ODBC / JDBC接口和高通量通過訪問Beplay体育安卓版本三角洲分享讓你安全地查詢數據計算係統。

免費試著磚

相關的帖子

看到所有公告的帖子
Baidu
map