數據治理概述
本文介紹了對數據治理的需求,並分享了您可以用來在組織中實施這些技術的最佳實踐和策略。它展示了您可以使用數據鏈芯和雲本地解決方案來使用典型的部署工作流程,以保護和監視每個層從應用程序向下到存儲。
為什麼數據治理很重要?
數據治理是一個傘術語,它封裝了實施的政策和實踐,以安全地管理組織內的數據資產。作為任何成功的數據治理實踐的關鍵原則之一,數據安全在任何大型組織中都可能是首要的。數據安全的關鍵是數據團隊在其組織中具有卓越的可見性和可審核性的能力。實施有效的數據治理解決方案有助於公司保護其數據免受未經授權的訪問權限,並確保他們有適當的規則遵守法規要求。
治理挑戰
無論您是管理初創公司的數據還是大型公司的數據,安全團隊和平台所有者都有一個奇異的挑戰,即確保此數據安全並根據組織的內部控製進行管理。Beplay体育安卓版本全世界的監管機構正在改變我們考慮如何捕獲和存儲數據的方式。這些合規風險隻會為已經很難的問題帶來進一步的複雜性。那麼,您如何將數據打開給可以推動未來用例的人?最終,您應該采用數據政策和實踐,通過有意義的應用程序通常是大量的數據商店,這些商店一直在不斷增長,從而幫助企業實現價值。當數據團隊能夠訪問許多數據源時,我們可以解決世界上最棘手的問題的解決方案。
在考慮雲中數據的安全性和可用性時,典型的挑戰:
您的當前數據和分析工具是否支持雲中數據的訪問控件?他們是否提供了通過給定工具移動的數據對數據采取的動作的強大記錄?
您現在提供的安全和監視解決方案是否會隨著數據湖數據的需求而擴展?為少數用戶提供和監視數據訪問可能很容易。當您想向數百個用戶打開數據湖時會發生什麼?到成千上萬?
您有什麼可以積極主動地確保觀察到的數據訪問策略的事情嗎?僅僅監視不足;那隻是更多數據。如果數據可用性僅僅是數據安全性的挑戰,則應有一個解決方案,可以積極監視和跟蹤整個組織中對此信息的訪問。
您可以采取哪些步驟來識別現有數據治理解決方案中的空白?
Databricks如何解決這些挑戰
Databricks提供了許多功能,可幫助您滿足數據治理需求。
管理訪問數據和對象:
這Databricks安全和信任中心提供有關Databricks Lakehouse平台各層的安全性方式的信息。Beplay体育安卓版本安全和信托中心提供的信息使您能夠在利用Databricks Lakehouse平台的同時滿足您的監管需求。Beplay体育安卓版本在安全和信托中心中找到以下類型的信息:
平台內置的安全性和治理功能的概述和列表。Beplay体育安卓版本
有關每個雲提供商平台符合的合規性標準的信息。Beplay体育安卓版本
適當的填充軟件包,以幫助您評估數據映射如何幫助您滿足合規性和監管需求。
Databricks的隱私準則及其執行方式的概述。
本文中的信息補充了安全和信托中心。
Unity目錄(預覽)是由Databricks開發的安全Metastore。Unity目錄將組織數據的存儲,元數據和治理集中在集中。借助Unity目錄,無論您的組織使用的工作空間或商業智能工具的數量如何,數據治理規則規模都按照您的需求規模。將數據存儲在Unity目錄中時,您將有選擇地授予工作區訪問每個Metastore,並使用帳戶級身份管理對數據的訪問。看開始使用Unity目錄。
增量共享(預覽)是Databricks開發的開放協議,用於與其他組織的安全數據共享,無論其使用哪種計算平台。Beplay体育安卓版本
IAM角色證書傳遞允許用戶使用用來登錄到數據映射的身份自動對S3存儲庫進行身份驗證。管理員創建IAM角色,將數據映射映射到適當的角色,並將這些角色分配給集群。用戶在該集群上運行的命令可以使用其身份在S3中讀取和寫入數據。
管理集群配置:
集群策略使管理員能夠控製訪問計算資源。
審核數據訪問:
審核日誌在您的帳戶和工作空間中提供對操作和操作的可見性。
監視存儲層:
對AWS CloudTrail和CloudWatch的支持提供了您在部署帳戶和您與Databricks一起使用的其他AWS帳戶的數據訪問信息。然後,您可以使用此信息來為警報發電,以警告數據abt鍵可能會引起潛在的安全問題。
以下各節說明了如何使用這些數據括號來實現治理解決方案。
管理訪問數據和對象
本節提供了管理對數據和對象訪問的階段方法。首先,您使用實例配置文件安全訪問存儲並啟用IAM憑據傳遞。接下來,您可以在單個簇,表和對象上實現訪問控製並實現細粒度的權限。
使用Unity目錄(預覽)管理多個工作區的數據
Unity目錄(預覽)是由Databricks開發的安全Metastore。Unity目錄將組織數據的存儲,元數據和治理集中在集中。借助Unity目錄,無論您的組織使用的工作空間或商業智能工具的數量如何,數據治理規則規模都按照您的需求規模。將數據存儲在Unity目錄中時,您將有選擇地授予工作區訪問每個Metastore,並使用帳戶級身份管理對數據的訪問。要了解更多,請參閱Unity目錄(預覽)。要了解如何創建Metastores,將數據加載到其中,遷移現有的工作區 - 本地數據並管理Metastores中數據和對象的訪問,請參見開始使用Unity目錄。要了解有關審核Unity目錄活動的更多信息,請參閱審核統一目錄資源的訪問和活動。
實例配置文件
從您的數據鏈球群中保護數據訪問數據的一種方法是使用實例配置文件。作為先決條件,您的IAM角色必須具有訪問S3存儲桶的必要權限,並且必須將實例配置文件添加到Databricks Workspace。啟動集群時,選擇實例配置文件。
創建群集後,請確保授權用戶可以訪問附加筆記本並使用群集,並拒絕未經授權的訪問:
現在,所有可以訪問此群集的用戶也可以通過附加到集群的實例配置文件訪問S3存儲器。
這是一種非常簡單的方法,可以使用可靠的訪問控製設置並安全地管理對敏感數據的訪問。您也可以使用實例配置文件API如果這是您首選的方法,則隨著用戶群的增長而擴展。
IAM證書傳遞
讓我們看一下另一種情況團隊分析師
工作空間中的組需要讀寫到S3存儲桶Analyst_project_data
。此設置很簡單:配置一個高並發群集,並附加具有具有讀寫和寫入S3存儲桶的權限的實例配置文件。接下來,給團隊分析師
訪問使用此群集。現在,如果需要進一步限製對該存儲桶的訪問,這樣隻有兩位分析師Sarah和Alice需要寫入對分析師project_data
Bucket和所有其他用戶隻有讀取訪問權限。在這種情況下,您將需要兩個群集:一個帶有實例配置文件的群集,可為存儲桶提供讀取訪問權限,所有分析師都可以使用此群集;僅莎拉(Sarah)和愛麗絲(Alice)可以訪問的第二個集群,該群集將附上另一個實例配置文件,從而使他們可以將其寫入S3存儲桶。隨著數據量的增長和組織的訪問策略變得更加複雜,保持更多的群集和IAM角色變得繁瑣,每個角色都具有不同的訪問控製。組織有時必須在簡單性和治理之間進行選擇,同時仍試圖滿足其數據安全需求。
為了解決此問題,Databricks提供了IAM證書傳遞,這使您可以使用用於登錄到數據映的身份自動從數據鏈球群中自動對S3存儲庫進行身份驗證。配置新群集時,您可以選擇啟用憑據傳遞。以下圖像顯示了在高電流群集上啟用憑證傳遞的選項。
對於標準群集而言,此選項有所不同,而通行路線僅限於單個用戶。
您可以使用IAM憑據傳遞來確保訪問S3存儲桶的訪問權限Databricks scim或利用SAML 2.0的AWS身份聯合聯合會為組織提供了一種將數據訪問集中在其身份提供商中的無縫方式,讓Databricks將憑據傳遞到存儲層。結果,具有不同數據訪問策略的多個用戶可以共享一個數據鏈球群集群並在S3中訪問數據,同時始終保持數據安全和治理。
實施表訪問控製
你可以啟用表訪問控製在以編程方式授予,拒絕和撤銷從Spark SQL API中訪問您數據的工作空間。您可以控製對數據庫,表,視圖和功能等可靠對象的訪問。考慮一個方案,您的公司具有存儲財務數據的數據庫。您可能希望您的分析師使用該數據創建財務報告。但是,數據庫中的另一個表中可能有敏感信息,分析師不應訪問。您可以向用戶或組為從一個表讀取數據所需的特權,但拒絕所有特權訪問第二個表。
在下麵的插圖中,愛麗絲是擁有的管理員shared_data
和private_data
財務數據庫中的表格。然後,愛麗絲(Alice)向分析師奧斯卡(Oscar)提供了從shared_data
但否認所有特權private_data
。
愛麗絲贈款選擇
授予奧斯卡的特權閱讀shared_data
:
愛麗絲否認所有獲得奧斯卡獎的特權private_data
:
您可以通過將細粒度的訪問控件定義為表的子集或通過對表的派生視圖設置特權來進一步邁出這一步驟。
管理集群配置
您可以使用集群策略自動提供集群,管理其權限並控製成本。
集群策略允許Databricks管理員定義群集上允許的群集屬性,例如實例類型,節點,自定義標簽的數量等。當管理員創建策略並將其分配給用戶或組時,這些用戶隻能根據他們可以訪問的策略創建集群。這使管理員對可以創建哪些類型的群集的控製程度更高。
您可以在JSON策略定義中定義策略,然後使用集群策略UI或者集群策略API。用戶隻有在有一個群集時才能創建create_cluster
權限或訪問至少一個集群策略。如上所述,擴展您對新分析項目團隊的要求,現在可以創建集群策略,並將其分配給項目團隊中的一個或多個用戶,這些用戶現在可以為團隊創建群集,僅限於集群策略中指定的規則。下圖提供了可以訪問該用戶的示例項目團隊簇政策
根據策略定義創建集群。
自動提供集群和授予權限
隨著群集和權限的端點的添加,數據映射REST API 2.0可以輕鬆地提供和授予在任何規模上為用戶和組集中資源的許可。您可以使用簇API 2.0為您的特定用例創建和配置簇。
此外,您可以將實例配置文件附加到群集中,以直接訪問任何相應的存儲。
然後您可以使用權限API 2.0將訪問控件應用於群集。
以下是可能適合新分析項目團隊的配置的示例。
要求是:
支持該團隊的交互式工作負載,這些工作量主要是SQL和Python用戶。
提供對象存儲中的數據源,並具有憑據,使團隊訪問與角色相關的數據。
確保用戶獲得集群資源的平等份額。
提供更大的內存優化實例類型。
授予集群的許可,使得隻有這個新項目團隊才能訪問它。
標記此集群,以確保您可以正確地對任何計算費用進行拒絕。
部署腳本
您可以通過在簇和權限API中使用API端點部署此配置。
配置集群
端點 -https://
筆記
使用點實例可以啟用成本控製。
{“ Autoscale”:{“ min_workers”:2,,,,“ max_workers”:50},,“ cluster_name”:“項目團隊互動集群”,,,,“ spark_version”:“最新穩定的scala2.11”,,,,“ spark_conf”:{“ spark.databricks.cluster.profile”:“無服務器”,,,,“ Spark.DataBricks.Repl.AllowedLanguages”:“ SQL,Python,R”},,“ aws_attributes”:{“ first_on_demand”:1,,,,“可用性”:“ spot_with_fallback”,,,,“ Zone_ID”:“ us-youst-2a”,,,,“ instance_profile_arn”:“ ARN:AWS:IAM :: 826763667205:實例 - profile/test-am-lole”,,,,“ spot_bid_price_percent”:100,,,,“ ebs_volume_type”:“常規_purpose_ssd”,,,,“ ebs_volume_count”:1,,,,“ ebs_volume_size”:100},,“ node_type_id”:“ R4.2xlarge”,,,,“ ssh_public_keys”:[],,“ custom_tags”:{“ Resourceclass”:“無服務器”,,,,“團隊”:“新項目團隊”},,“ spark_env_vars”:{“ pyspark_python”:“/databricks/python3/bin/python3”},,“自動化_minutes”:60,,,,“ enable_elastic_disk”:“真的”,,,,“ init_scripts”:[]}
審核訪問
在數據鍵賽中配置訪問控製並在存儲中控製數據訪問是邁向有效數據治理解決方案的第一步。但是,一個完整的解決方案需要審核對數據的訪問並提供警報和監視功能。Databricks為Databricks用戶提供的日誌活動提供了一套全麵的審核事件,使企業可以監視平台上的詳細使用模式。Beplay体育安卓版本為了完全了解用戶在平台上的操作以及訪問的數據,您應該同時使用本機數據括號和雲提供商審核日誌記錄功能。Beplay体育安卓版本
確保你配置審核記錄。這涉及配置正確的訪問策略,以便Databricks可以將審核日誌交付到您提供的S3存儲桶中。審核日誌定期交付給S3存儲桶,您可以保證在每天72小時內關閉審核日誌。
這是一個示例,說明了如何在數據鏈球彈中分析審核日誌。查找登錄工作空間和從哪裏登錄的所有用戶帳戶。這些日誌可在您的S3存儲桶中可用,按日期分區。將審核日誌加載為數據框中的數據框,並將其注冊為臨時表。然後使用適當的服務名稱
和ActionName
:
該單元的輸出看起來像這樣:
您可以審核更多活動。配置審核記錄提供審核事件,參數和審核日誌模式的完整列表。
監視存儲層
您可以通過實現CloudTrail和CloudWatch(CloudWatch)等本機AWS服務來擴展此可審核性。這些可以幫助您回答以下問題:
我的數據湖正在訪問哪些數據?
用戶是否寫數據到沉沒了?他們在刪除數據嗎?
應用程序層是否有適當的數據訪問控件?
我可以退休或合並的數據來源嗎?
在一個幾個步驟,您可以使用CloudTrail創建CloudWatch日誌流,然後可以使用該流來創建實時警報。這些警報可以將用戶或其他參與者采取的相應操作通知數據團隊,並且可以基於各種可自定義的條件。這樣,您可以密切監視和維護對數據湖上S3桶采取的動作。一旦到位,這些警報過程就可以更容易地發現表或數據庫訪問控製中的任何差距。同樣,您可以將數據括號用於攝取並改變您的CloudTrail日誌並使用Delta Lake桌執行自己的最新流媒體日誌分析。
學到更多
這裏有一些資源來幫助您建立滿足您組織需求的全麵數據治理解決方案:
如果您使用Immuta,則可以從與Databricks的業務合作夥伴關係中受益,以在統一的數據分析和數據治理方麵提供本地產品集成。看端到端的數據治理使用數據鏈助和Immuta。