跳到主要內容
Beplay体育安卓版本平台的博客

讓您的數據湖CCPA符合統一的數據和分析方法

分享這篇文章

隨著每天都有越來越多的數字數據被捕獲,各種監管標準也在不斷上升,例如一般數據保護條例(GDPR)最近加州消費者隱私法.這些隱私法律和標準旨在保護消費者免受企業不當收集、使用或共享其個人信息的影響,並正在改變企業管理和保護其收集和存儲的消費者數據的方式。

與GDPR類似,CCPA授權個人要求:

  • 哪些個人信息正在被獲取,
  • 個人信息是如何被使用的
  • 刪除個人信息。

此外,CCPA還包含有關“家庭”的信息。根據這些要求,這有可能大大擴大個人信息的範圍。如果不及時遵守,可能會導致法定罰款和法定損害賠償金(消費者甚至不需要證明損害賠償金),這些罰款和賠償金可能會迅速上升。因此,在加州或其他受CCPA約束的地區開展業務的公司麵臨的挑戰是確保他們能夠快速找到、保護和刪除個人信息。

許多公司錯誤地認為,為遵守GDPR而實施的數據隱私流程和控製將確保完全遵守ccpa——盡管你為GDPR所做的準備工作是有幫助的,是一個很好的開始,但這些不太可能是充分的。公司需要專注於了解其合規需求,並必須確定哪些流程和控製可以有效防止濫用和未經授權的消費者數據銷售。

你準備好考CCPA了嗎?

CCPA要求企業應要求刪除有關消費者的所有個人信息。如今,許多組織正在使用或計劃使用數據湖來存儲他們的絕大多數數據,以便全麵了解他們的客戶和業務,並推動下遊數據科學、機器學習和業務分析。beplay体育app下载地址數據湖結構的缺乏使得定位和刪除單個記錄以保持符合這些監管要求具有挑戰性。

在響應消費者的刪除請求時,這是至關重要的,如果企業在短時間內收到超過幾個消費者權利請求,那麼遵守這些請求所花費的資源可能是巨大的。在2020年1月1日之前未能遵守CCPA要求的企業可能會受到訴訟和民事處罰。CCPA還包含一個“回顧”期,自2019年1月1日起將其應用於行動和個人信息,因此迅速製定這些解決方案至關重要。

讓您的數據安全超越數據湖

當涉及到遵守CCPA要求時,您的數據湖應使您能夠在規定的時間內響應消費者權利要求,而不會妨礙您的業務。不幸的是,大多數數據湖都缺乏快速定位和刪除記錄的數據管理和數據操作功能,這使得這項工作具有挑戰性。

幸運的是,Databricks提供了一個解決方案。的Databricks統一數據分析平台Beplay体育安卓版本簡化數據訪問和工程,同時培養支持分析和機器學習的協作環境。beplay娱乐ios作為平台的一部分,DatabrBeplay体育安卓版本icks提供了統一數據服務,可確保您的數據管道、數據湖和數據分析工作流的可靠性和可伸縮性。

Databricks統一數據分析平台簡化了數據訪問和工程,同時培養了Beplay体育安卓版本一個支持分析和機器學習驅動創新的協作環境。beplay娱乐ios

Databricks統一數據服務的主要組件之一是三角洲湖,一個開源存儲層,為您的數據湖帶來增強的數據可靠性、性能和生命周期管理。通過改進數據管理,組織可以開始“超越數據湖”思考,並利用更先進的分析技術和技術來擴展數據,以滿足下遊業務需求,包括數據隱私保護和CCPA合規性。

開始使用Delta lake構建一個ccpa友好的數據湖

Delta Lake為您的數據湖提供了一個包括事務功能的結構化數據管理係統。這使您能夠使用標準的DML語句(例如DELETE、UPDATE、MERGE INTO)輕鬆快速地搜索、修改和清理數據。

首先,攝取你熟悉的Spark api的原始數據,然後把它們寫成Delta Lake表。這樣做還會將元數據添加到文件中。如果您的數據已經是Parquet格式,您也可以選擇轉換將拚花文件放置到Delta Lake表中,而不重寫任何數據。Delta使用開放文件格式(拚花),因此你不必擔心被鎖定,因為你可以在需要時迅速而輕鬆地將你的數據轉換回另一種格式。

一旦攝入,您就可以輕鬆地搜索和修改Delta Lake表中的單個記錄。最後一步是刪除所有潛在的原始數據,讓三角洲湖成為唯一的真相來源。這將從原始數據集中刪除任何遺留記錄。我們建議與AWS或Azure建立一個30天或更短的保留策略,自動刪除原始數據,這樣就不需要采取進一步的行動來刪除原始消費者數據,以滿足CCPA的響應時間。

如何使用Delta lake刪除數據湖中的數據?

您可以通過以下命令查找和刪除與消費者相關的任何個人信息:

  1. DELETE FROM data WHERE email = '(電子郵件保護)”;
  2. 真空數據;

第一個命令標識包含字符串"的記錄(電子郵件保護),並刪除包含這些記錄的數據,方法是重新編寫相應的底層文件,刪除消費者唯一的個人數據,並將舊文件標記為已刪除。

第二個命令清理Delta表,刪除邏輯上已刪除且超出默認保留期限的任何過期記錄。默認保留期限為7天,這意味著標記為刪除的文件將一直存在,直到運行真空命令至少7天之後。控件可以輕鬆地設置計劃作業Databricks作業調度程序以自動方式為您運行VACUUM命令。你可能也熟悉Delta Lake時間旅行功能,它允許您保留Delta Lake表的曆史版本,以防您需要查詢表的早期版本。請注意,當您運行VACUUM時,您將失去時間旅行回到比默認7天數據保留期更早的版本的能力。

運行這些命令後,現在可以安全地聲明已經從數據湖中刪除了必要的使用者數據和記錄。

Databricks如何幫助我與CCPA消費者權利請求?

一旦用戶的個人信息從數據湖中刪除,從數據團隊使用的工具中刪除這些個人信息也很重要。通常情況下,這些工具駐留在數據科學家或工程師的筆記本電腦上。更好、更安全的解決方案是使用Databricks及其托管的數據科學工作區,數據團隊可以在共享的筆記本環境中協作準備、探索和建模數據。beplay娱乐ios這提高了團隊的工作效率,同時為整個分析工作流程創建了一個安全、集中的環境。

為了幫助您滿足CCPA合規要求,Databricks為您提供了隱私保護工具,可以在每個命令或每個筆記本級別上永久刪除個人信息。

當你刪除一個筆記本後,它會被移到垃圾桶。如果你不采取進一步措施,這將是永久性的30天內刪除-讓您確信它已在CCPA和GDPR規定的時間內被刪除。

如果出於任何原因,你需要更快地執行此操作,我們還提供了永久刪除垃圾中的單個項目的功能:

Databricks允許您在每個命令或每個筆記本級別上輕鬆刪除個人信息。

刪除特定用戶垃圾中的所有項目:

Databricks還可以讓您永久刪除駐留在垃圾中的任何個人信息,立即。

清除所有在工作區中刪除的項目,包括刪除的筆記本單元格,筆記本注釋或MLFlow實驗:

Databricks還允許您根據命令清除工作區中所有已刪除的項目,以便輕鬆遵守CCPA和其他隱私法規。

你也可以選擇清洗Databricks筆記本的修訂曆史,這對於確保舊的查詢結果被永久刪除非常有用:

作為額外的隱私保護,Databricks還為您提供了清除筆記本修訂曆史記錄的選項,以確保舊的查詢結果被永久刪除。

從CCPA遵從數據和分析開始

借助Databricks統一數據分析平台和Delta Lake,您可以為數據湖帶來增強Beplay体育安卓版本的數據安全性、可靠性、性能和生命周期管理,同時滿足您的所有分析需求。組織現在可以快速地從數據湖中找到並刪除單個記錄,以滿足CCPA訪問請求和合規要求,而不會妨礙其業務。

了解更多三角洲湖Databricks統一數據分析平台Beplay体育安卓版本.注冊你的免費試用Databricks現在。

免費試用Databricks
看到所有產品的帖子
Baidu
map