跳到主要內容
Beplay体育安卓版本平台的博客

介紹Databricks Unity目錄:Lakehouse上的數據和AI的細粒度治理

分享這篇文章

更新:統一目錄現在在AWS和Azure上普遍可用。

S3、ADLS和GCS等數據湖係統因其可伸縮性、低成本和開放接口而存儲了當今企業中的大部分數據。隨著時間的推移,這些係統也成為處理數據的一個有吸引力的地方lakehouse技術包括三角洲湖支持ACID事務和快速查詢。然而,數據湖仍然比傳統數據庫更難管理的一個領域是治理;到目前為止,這些係統隻提供了在文件級別管理權限的工具(例如S3和ADLS acl),使用了大多數數據專業人員不熟悉的特定於雲的概念,如IAM角色。

所以我們很激動地宣布統一目錄,它使用熟悉的開放接口為lakehouse數據帶來細粒度治理和安全性。Unity Catalog允許組織使用標準的ANSI SQL或簡單的UI管理細粒度的數據權限,使他們能夠安全地開放他們的湖屋供廣泛的內部消費。它跨雲和數據類型統一工作。最後,它超越了管理表的範疇,管理其他類型的數據資產,比如ML模型和文件。因此,企業可以獲得一種簡單的方法來管理所有數據和人工智能資產:

Unity Catalog是一款新產品,它使用開放接口為湖屋係統帶來細粒度治理和安全性,同時保留了數據湖的所有優點。

現在使用數據湖治理工具有什麼困難?

雖然現在所有的雲存儲係統(例如S3、ADLS和GCS)都提供安全控製,但這些工具是不安全的造成的成為特定於雲計算的漏洞,隨著組織規模的擴大,這兩者都會帶來問題。我們經常看到客戶遇到四個問題:beplay体育app下载地址

  • 缺乏細粒度的(行、列和視圖級別)安全性:雲數據湖通常隻能在文件或目錄級別設置權限,因此很難與特定用戶共享表的一個子集。這使得不應該訪問整個表的機載企業用戶非常乏味。
  • 與物理數據布局相關的治理:因為治理控製在文件級別,所以數據團隊必須仔細構造數據布局,以支持所需的策略。例如,一個團隊可能會將數據按國家劃分到不同的目錄中,並將每個目錄的訪問權授予不同的組。但是當治理規則發生變化時,團隊應該做什麼?如果一個國家內的不同州采用不同的數據法規,組織可能需要重組其所有數據。
  • 非標準的、特定於雲的接口:像IAM這樣的雲治理api對於數據專業人員(例如數據庫管理員)來說是不熟悉的,並且在不同的雲之間是不同的。如今,企業越來越多地需要在多個雲中存儲數據(例如,為了滿足隱私法規),因此他們需要能夠跨雲管理數據。
  • 不支持其他資產類型:數據湖治理api適用於湖中的文件,但現代企業工作流會產生各種其他類型的數據資產。例如,SQL工作流通常圍繞視圖,數據科學工作負載產生ML模型,許多工作負載連接到湖以外的數據源(例如,數據庫)。在現代遵從性環境中,如果所有這些資產包含敏感數據,則需要以相同的方式進行管理。因此,數據團隊必須在許多不同的係統中重新實現相同的安全策略。

Unity Catalog的方法

Unity Catalog通過實現基於跨數據資產類型和雲的開放標準的細粒度數據治理方法來解決這些問題。它是圍繞四個關鍵原則設計的:

  • 細粒度的權限:Unity Catalog可以強製行、列或視圖級別的數據權限,而不是文件級別的權限,這樣你就可以始終與新用戶共享部分數據而無需複製它。
  • 一個開放、標準的接口:Unity Catalog的權限模型基於ANSI SQL,使任何數據庫專業人員都能立即熟悉它。我們還構建了一個UI來簡化數據管理員的管理,並且擴展了SQL模型來支持基於屬性的訪問控製,允許您用相同的屬性標記許多對象(例如,“PII數據”),並對所有對象應用一個策略。最後,可以使用相同的基於SQL的接口來管理ML模型和外部數據源。
  • 中央控製:Unity Catalog可以跨多個Databricks工作區、地理區域和雲工作,允許您集中管理所有企業數據。這個中心位置還使它能夠跟蹤沿襲並審計所有訪問。
  • 從任何平台安全訪問:Beplay体育安卓版本盡管我們喜歡Databricks平台,但我們知道許多客戶也會從其Beplay体育安卓版本他平台訪問數據,而且他們希望自己的治理規則能夠跨平台工作beplay体育app下载地址。Unity Catalog強製任何通過JDBC/ODBC或通過JDBC/ODBC連接的客戶機的安全權限三角洲分享這是我們推出的開放協議,用於在各種平台之間交換大型數據集。Beplay体育安卓版本

讓我們看看如何使用Unity Catalog來實現公共治理任務。

使用ANSI SQL輕鬆管理權限

Unity Catalog通過開放標準ANSI SQL數據控製語言(DCL)跨雲對所有數據資產進行細粒度的集中治理。這意味著管理員可以使用熟悉的SQL輕鬆地為任意特定於用戶的數據子集授予權限,而不需要學習神秘的、特定於雲的接口。我們還添加了強大的標記功能,允許您根據屬性同時控製對多個數據項的訪問,從而進一步簡化大規模的治理。

下麵是幾個示例,說明如何使用SQL grant語句與Unity Catalog一起為存儲在數據湖上的現有數據添加權限。

首先,您可以從頭開始在目錄中創建表,也可以指向雲存儲係統(如S3)中的現有數據,使用特定於雲的憑據訪問:

創建外部表格iot_events LOCATION s3:/...憑據iot_iam_role

您現在可以簡單地使用SQL標準格蘭特語句來設置權限,如在任何數據庫中一樣。下麵是如何將iot_events權限授予整個組(如工程師),或僅將日期和國家列授予營銷組的示例:

格蘭特選擇iot_events工程師格蘭特選擇日期、國家)iot_events市場營銷

Unity Catalog也理解SQL視圖。這允許您創建SQL視圖以複雜的方式聚合數據。以下是你可以使用的方法基於視圖的訪問控製為business_analysts隻授予數據的聚合版本的訪問權限:

創建視圖aggregate_data作為選擇日期、國家作為num_eventsiot_events集團通過日期、國家格蘭特選擇aggregate_databusiness_analysts

此外,Unity Catalog允許您一次使用屬性在多個項目上設置策略(基於屬性的訪問控製),這是一種大規模簡化治理的有力方法。例如,您可以將多個列標記為PII,並在一個規則中管理對標記為PII的所有列的訪問:

改變表格iot_events添加pii屬性電子郵件改變表格用戶添加pii屬性電話格蘭特選擇數據庫iot_data屬性(pii)product_managers

最後,相同的屬性係統可以讓您輕鬆地以與原始數據一致的方式管理MLflow模型和其他對象:

格蘭特執行模型屬性(eu_data)eu_product_managers

在UI中發現和管理數據資產

Unity Catalog的UI使得在一個地方發現、描述、審計和管理數據資產變得很容易。數據管理員可以可視化地設置或檢查所有權限,目錄捕獲審計和沿襲信息,這些信息向您顯示每個數據資產是如何產生和訪問的。UI是為協作而設計的,以便數據用戶可以記錄每個資產並查看誰在使用它。

Unity Catalog UI使數據管理員可以輕鬆地自信地管理和保護數據訪問,直接在湖邊小屋上滿足合規性和隱私需求。
並安全的數據訪問,以滿足合規和隱私需求,直接對湖屋。

使用Delta Sharing跨組織共享數據

每個組織都需要與客戶、合作夥伴和供應商共享數據以進行協作。beplay体育app下载地址Unity Catalog實現了開源三角洲分享標準,讓您安全地跨組織共享數據,無論它們運行在哪個計算平台或雲上(任何Delta Sharing客戶端都可以連接到數據)。Beplay体育安卓版本

使用Delta共享跨組織共享數據

開放接口,方便訪問

Unity Catalog與您現有的目錄、數據、存儲和計算係統一起工作,因此您可以利用現有的投資並構建一個麵向未來的治理模型。它可以掛載現有的數據Apache蜂巢Metastores或雲存儲係統,如S3、ADLS和GCS,無需移動。它還與治理平台(如Privacera和Immuta)連接,以允許您Beplay体育安卓版本定義用於管理數據訪問的自定義工作流。最後,我們設計了Unity Catalog,這樣你也可以從Databricks以外的計算平台訪問它:ODBC/JDBC接口和高吞吐量訪問Beplay体育安卓版本三角洲分享允許您在任何計算係統中安全地查詢您的數據。

免費試用Databricks

相關的帖子

看到所有公告的帖子
Baidu
map