跳到主要內容
Beplay体育安卓版本平台的博客

增量共享的安全最佳實踐

客戶可使用的最佳實踐,以加強其湖屋上的Delta Shabeplay体育app下载地址ring請求

2022年8月1日<!-- --> 在<!-- -->產品

分享這篇文章

更新:三角洲分享現在在AWS和Azure上普遍可用。

的數據lakehouse它使我們能夠整合我們的數據管理架構,消除豎井,並為所有用例利用一個公共平台。Beplay体育安卓版本數據倉庫和人工智能用例在單一平台上的統一對組織來說是巨大的進步,但一旦他們邁出了這一步,下一個要考慮的問題是“無論接收者使用哪個客Beplay体育安卓版本戶端、工具或平台來訪問數據,我們如何簡單安全地共享數據?”幸運的是,lakehouse這個問題也有答案:與Delta sharing共享數據。

三角洲分享

三角洲分享是世界第一嗎開放的協議用於在內部和跨組織實時安全地共享數據,而不依賴於數據所在的平台。Beplay体育安卓版本這是開放性的關鍵組成部分lakehouse架構,以及以以前不可能的方式組織我們的數據團隊和訪問模式的關鍵促成因素,例如數據網格

Delta Sharing是世界上第一個用於在組織內部和跨組織實時安全共享數據的開放協議。

安全設計

注意這一點很重要三角洲分享從頭開始構建,並考慮到安全性,允許您利用以下功能開箱即用,無論使用開源版本或其托管等效

  • 端到端TLS加密從客戶端到服務器到存儲帳戶
  • 短期證書例如預先簽名的url用於訪問數據
  • 輕鬆地管理、跟蹤和審計訪問到您的共享數據集統一目錄

我們將在本博客中分享的最佳實踐是附加的,允許客戶根據其風險概況和數據的敏感性調整適當的安全控製。beplay体育app下载地址

安全最佳實踐

我們的最佳實踐建議三角洲分享共享敏感數據的方法如下:

  1. 根據您的需求評估開源版本和托管版本
  2. 為每個亞metastore設置適當的接收令牌生命期
  3. 建立證書輪換流程
  4. 考慮共享、收件人和分區的正確粒度級別
  5. 配置IP訪問列表
  6. 配置數據庫審計日誌
  7. 配置存儲帳戶的網絡限製
  8. 在存儲帳戶上配置登錄

1.評估開源版本管理根據您的需求

正如我們上麵所建立的,Delta Sharing從頭開始就以安全為首要考慮。但是,使用版本管理

  • Delta Sharing on Databricks由統一目錄,它允許您從一個地方集中提供對不同用戶集之間的任何數據集的細粒度訪問。對於開源版本,您將需要在多個共享服務器之間分離具有不同數據訪問權限的數據集,並且還需要對這些服務器和底層存儲帳戶施加訪問限製。為了便於部署,a碼頭工人形象提供了開源版本,但重要的是要注意,跨大型企業擴展部署將給負責管理它們的團隊帶來不小的開銷。
  • 就像數據庫的其他人一樣Lakehouse平Beplay体育安卓版本台統一目錄作為托管服務提供。您不需要擔心服務的可用性、正常運行時間和維護等問題,因為我們為您擔心這些問題。
  • 統一目錄允許您開箱即用地配置全麵的審計日誌功能。
  • 數據所有者將能夠使用SQL語法管理共享。此外,還可以使用REST api來管理共享。使用熟悉的SQL語法簡化了我們共享數據的方式,減少了管理負擔。
  • 使用開源版本,您需要負責數據共享的配置、基礎設施和管理,但使用托管版本,所有這些功能都是開箱即用的。

出於這些原因,我們建議評估這兩個版本,並根據您的需求做出決定。如果易於設置和使用、開箱即用的治理和審計以及外包服務管理對您很重要,那麼托管版本可能是正確的選擇。

2.為每個亞metastore設置適當的接收令牌生命期

當你啟用三角洲分享,則為接收方憑據配置令牌生命期。如果將令牌生命期設置為0,則接收方令牌永遠不會過期。

設置適當的令牌生命周期對於監管、遵從性和聲譽的立場至關重要。擁有一個永不過期的代幣是一個巨大的風險;因此,建議使用壽命短的令牌作為最佳實踐。向令牌已經過期的接收者授予新令牌要比調查生命期設置不正確的令牌的使用要容易得多。

請參閱文檔(AWSAzure),以配置令牌在適當的秒、分、小時或天之後過期。

3.建立證書輪換流程

您可能有許多原因想要輪換憑據,從現有令牌的到期,到擔心憑據可能已被破壞,或者甚至隻是您修改了令牌的生命周期,並希望發布符合該到期時間的新憑據。

為了確保這些請求以可預測和及時的方式得到滿足,建立一個流程非常重要,最好是建立一個SLA。這可以很好地集成到您的IT服務管理流程中,由指定的數據所有者、數據管理員或DBA為該metastore完成適當的操作。

請參閱文檔(AWSAzure),以了解如何輪換證書。特別是:

  • 如果需要立即輪換憑據,請設置——existing-token-expire-in-seconds0,現有的令牌將立即過期。
  • Databricks在擔心憑證可能已被泄露時,建議采取以下措施:
    1. 撤銷收件人對共享的訪問權限。
    2. 旋轉收件人並設置——existing-token-expire-in-seconds0這樣現有的令牌就會立即過期。
    3. 通過安全通道與預期的收件人共享新的激活鏈接。
    4. 激活URL被訪問後,再次授予收件人對共享的訪問權限。

4.考慮共享、收件人和分區的正確粒度級別

版本管理,每個共享可以包含一個或多個表,並可以與一個或多個接收者相關聯,使用細粒度控製來管理訪問多個數據集的人或方式。這允許我們以一種很難實現的方式提供對多個數據集的細粒度訪問開源一個人。我們甚至可以更進一步,通過提供分區規範,隻添加要共享的表的一部分(請參閱關於AWSAzure).

通過實現共享和接收者來遵循最小特權原則來利用這些特性是值得的,這樣,如果接收者憑據受到損害,它將與盡可能少的數據集或盡可能小的數據子集關聯。

5.配置IP訪問列表

默認情況下,訪問您的共享所需要的隻是一個有效的Delta共享憑據文件,因此,通過對憑據的使用位置實施網絡級限製,將憑據泄露的可能性降至最低是至關重要的。

配置Delta共享IP訪問列表(參見文檔)AWSAzure),限製收件人訪問受信任的IP地址,例如,企業VPN的公共IP地址。

將IP訪問列表與訪問令牌組合在一起可以大大降低未經授權的訪問風險。對於以未經授權的方式訪問數據的人來說,他們需要既獲得了您的令牌的副本,又處於相同的授權網絡上,這比僅僅獲得令牌本身要困難得多。

6.配置數據審計日誌

審計日誌是您的係統中發生的事情的權威記錄Databricks Lakehouse平Beplay体育安卓版本台,包括所有有關的活動三角洲分享.因此,我們強烈建議您為每個雲配置Databricks審計日誌(參見文檔)AWSAzure),並建立自動管道來處理這些日誌,並對重要事件進行監控/警報。

查看我們的博客,使用審計日誌監視您的Databricks Lakehouse平台Beplay体育安卓版本為了更深入地了解這個主題,包括您需要設置的所有代碼Delta活動表管道、配置磚的SQL提醒並運行SQL查詢回答以下重要問題:

  • 我的Delta股票中哪隻最受歡迎?
  • 從哪些國家訪問我的Delta共享?
  • 是否在沒有應用IP訪問列表限製的情況下創建了增量共享收件人?
  • 是否使用超出我的可信IP地址範圍的IP訪問列表限製創建了Delta共享收件人?
  • 訪問我的Delta Shares的嚐試是否違反了IP訪問列表限製?
  • 訪問我的Delta股份的嚐試是否多次驗證失敗?

7.配置存儲帳戶的網絡限製

一旦共享服務器成功地驗證了delta共享請求,就會生成一個短期憑據數組並返回給客戶機。然後客戶端使用這些url直接從雲提供商請求相關文件。這種設計意味著傳輸可以在大帶寬下並行進行,而無需通過服務器傳輸結果。這還意味著,從安全角度來看,您可能希望在存儲帳戶上實現與delta共享接收方本身類似的網絡限製——如果數據本身托管在任何人都可以從任何地方訪問的存儲帳戶中,那麼在接收方級別保護共享就沒有意義了。

Azure

在Azure上,Databricks建議使用身份管理(目前在公共預覽中)來代表訪問底層存儲帳戶統一目錄.beplay体育app下载地址然後客戶可以配置存儲防火牆以限製所有其他訪問到可信的私有端點、虛擬網絡或公共IP範圍,delta共享客戶端可以使用這些IP訪問數據。請聯係您的Databricks代表以獲取更多信息。

重要提示:同樣,在決定應用什麼網絡級別限製時,考慮所有潛在的用例是很重要的。例如,除了通過增量共享訪問數據外,一個或多個Databricks工作空間也可能需要訪問數據,因此您應該允許來自這些工作空間使用的相關可信私有端點、虛擬網絡或公共IP範圍的訪問。

AWS

在AWS上,Databricks建議使用S3桶策略來限製對S3桶的訪問。例如,下麵的Deny語句可用於限製對可信IP地址和vpc的訪問。

重要提示:在決定應用什麼網絡級別的限製時,考慮所有潛在的用例是很重要的。例如:

  • 當使用托管版本時,預簽名url由統一目錄,因此您將需要允許從Databricks控製平麵NAT地址
  • 很可能一個或多個Databricks工作空間也需要訪問數據,因此如果底層S3桶在同一區域,並且您正在使用VPC端點連接到S3或數據平麵流量解析到的公共IP地址(例如通過NAT網關),那麼您應該允許來自相關VPC id的訪問。
  • 為了避免失去公司網絡內的連接,Databricks建議始終允許來自至少一個已知且可信的IP地址的訪問,例如公司VPN的公共IP。這是因為即使在AWS控製台中也應用拒絕條件。
“版本”“2012-10-17”“聲明”:【“席德”“DenyAccessFromUntrustedNetworks”“效應”“否認”“校長”“*”“行動”“s3: *”“資源”:【“攻擊:aws: s3::: <鬥> "“攻擊:aws: s3::: <鬥> / *”],“條件”: {“NotIpAddressIfExists”: {“aws: SourceIp”:【“< databricks_nat_ip >”“< other-allowed-ip >”“< other-allowed-ip >”},“StringNotEqualsIfExists”: {“aws: SourceVpc”:【“< allowed_vpc_id >”“< allowed_vpc_id >”}<!-- -->}<!-- -->}<!-- -->]<!-- -->}</ allowed_vpc_id > < /allowed_vpc_id > </ other-allowed-ip > < /other-allowed-ip > </ databricks_nat_ip > < /桶桶> < / >

除了網絡級別限製外,還建議您將對底層S3桶的訪問限製為使用的IAM角色統一目錄.原因是,正如我們所見,統一目錄提供對數據的細粒度訪問,而AWS IAM/S3提供的粗粒度權限是不可能實現的。因此,如果有人能夠直接訪問S3 bucket,他們就可以繞過那些細粒度的權限,訪問比您預期的更多的數據。

重要提示:如上所述,即使在AWS控製台中也適用“拒絕”條件,因此建議您還允許對管理員角色的訪問,少數特權用戶可以使用該角色訪問AWS UI/ api。

“席德”“DenyActionsFromUntrustedPrincipals”“效應”“否認”“校長”“*”“行動”“s3: *”“資源”:【“攻擊:aws: s3::: <鬥> "“攻擊:aws: s3::: <鬥> / *”],“條件”: {“StringNotEqualsIfExists”: {“aws: PrincipalArn”:【“< uc_iam_role_arn >”“< aws_admin_iam_role_arn >”]<!-- -->}<!-- -->}<!-- -->}</ aws_admin_iam_role_arn > < / uc_iam_role_arn > </桶> < /桶>

8.配置存儲帳戶的登錄

除了對底層存儲帳戶實施網絡級限製外,您可能還希望監視是否有人試圖繞過這些限製。因此,Databricks建議:

結論

lakehouse解決了導致我們擁有碎片化數據架構和訪問模式的大部分數據管理問題,並嚴重限製了組織期望從其數據中看到價值的時間。現在數據團隊已經從這些問題中解脫出來,開放但安全的數據共享已成為下一個前沿。

三角洲分享是世界第一嗎開放的協議用於在內部和跨組織實時安全地共享數據,而不依賴於數據所在的平台。Beplay体育安卓版本通過使用三角洲分享結合上麵概述的最佳實踐,組織可以輕鬆而安全地與企業規模的用戶、合作夥伴和客戶交換數據。beplay体育app下载地址

現有的數據市場未能使數據提供者和數據消費者的業務價值最大化,但隨著市場的發展,數據市場的價值也在增加磚的市場您可以利用Databricks Lakehouse平台來接觸更多的客戶,降低成本,並Beplay体育安卓版本為所有數據產品提供更多價值。beplay体育app下载地址

如果你有興趣成為數據提供商合作夥伴我們很樂意聽到你的聲音

免費試用Databricks

相關的帖子

看到所有<!-- -->產品<!-- -->的帖子
Baidu
map