宣布可用性的數據沿襲與統一目錄
2022年6月8日 在Beplay体育安卓版本平台的博客
更新:數據沿襲現在一般都有在AWS和Azure上。
我們很高興地宣布,數據沿襲統一目錄lakehouse上所有數據和AI資產的統一治理解決方案現已預覽。
本博客將討論數據沿襲的重要性、一些常見的用例、我們對更好的數據透明度和數據理解的願景,以及我們正在構建的一些數據溯源和治理特性。
什麼是數據沿襲?為什麼它很重要?
數據沿襲描述了數據從源到洞察的轉換和細化。Lineage包括捕獲與其生命周期中數據關聯的所有相關元數據和事件,包括數據集的來源、用於創建該數據集的其他數據集、創建該數據集的人員和時間、執行了哪些轉換、哪些其他數據集利用了該數據集以及許多其他事件和屬性。通過數據沿襲解決方案,數據團隊可以獲得數據如何轉換以及如何在數據資產中流動的端到端視圖。
隨著越來越多的組織接受數據驅動的文化,並建立流程和工具來實現數據和人工智能的民主化和規模化,數據譜係正在成為務實的數據管理和治理戰略的重要支柱。
為了理解數據沿襲的重要性,我們在下麵重點介紹了從客戶那裏聽到的一些常見用例。beplay体育app下载地址
影響分析
數據在其生命周期中經曆多次更新或修訂,從風險管理的角度來看,理解任何數據更改對下遊消費者的潛在影響變得非常重要。通過數據沿襲,數據團隊可以看到所有受數據更改影響的下遊消費者(應用程序、儀表板、機器學習模型或數據集等),了解影響的嚴重程度,並通知相關利益相關者。Lineage還幫助IT團隊主動與適當的團隊溝通數據遷移,確保業務連續性。
數據理解和透明度
組織要處理來自多個來源的大量數據,並且更好地理解圍繞數據的上下文對於確保數據的可信度至關重要。數據沿襲是一個強大的工具,它使數據領導者能夠在其組織中提高數據的透明度和理解。數據沿襲還使數據科學家、數據工程師和數據分析師等數據消費者在執行分析時能夠感知上下文,從而獲得更高質量的結果。最後,數據管理員可以查看哪些數據集不再被訪問或已經過時,以退出不必要的數據,並確保最終業務用戶的數據質量。
調試和診斷
你可以讓所有的製衡都到位,但最終還是會有事情發生。數據沿襲可以幫助數據團隊對數據管道、應用程序、儀表板、機器學習模型等中的任何錯誤執行根本原因分析,通過跟蹤錯誤的根源。這大大減少了調試時間,節省了數天,或者在許多情況下,節省了數月的手工工作。
合規和審計準備
許多合規法規,如通用數據保護條例(GDPR)、加州消費者隱私法案(CCPA)、健康保險可攜帶性和責任法案(HIPPA)、巴塞爾銀行監管委員會(BCBS) 239和薩班斯-奧克斯利法案(SOX),都要求組織對數據流有清晰的理解和可見性。因此,數據可追溯性成為數據架構滿足法律法規的關鍵需求。數據沿襲幫助組織遵從並準備好審計,從而減輕了為審計報告目的手動創建數據流軌跡的操作開銷。
毫不費力的透明度和數據沿襲的主動控製
的lakehouse提供實用的數據管理架構,通過在單一平台上統一數據倉庫和人工智能用例,極大地簡化了企業數據基礎設施,並加速了創新。Beplay体育安卓版本我們相信,數據沿襲是提高數據透明度和數據理解的關鍵因素,它使數據、作業和消費者之間的關係浮出水麵,並幫助組織轉向積極的數據管理實踐。例如:
- 作為儀表板的所有者,您是否希望在下次儀表板所依賴的表沒有正確加載時收到通知?
- 作為開發模型的機器學習從業者,您是否希望得到模型中的關鍵特性很快將被棄用的警告?
- 作為治理管理員,您是否希望根據數據的來源自動控製對數據的訪問?
所有這些功能都依賴於跨所有用例和角色的數據沿襲的自動收集——這就是為什麼lakehouse和數據沿襲是一個強大的組合。
以下是我們在預覽版中發布的一些功能:
表的數據沿襲
表列的數據沿襲
數據沿襲筆記本,工作流,儀表板
- 內置的安全:Unity Catalog中的譜係圖是特權感知的,並與Unity Catalog共享相同的權限模型。如果用戶沒有訪問表的權限,他們將無法探索與表關聯的譜係,這為隱私考慮增加了額外的安全層。
- 通過REST API輕鬆導出:中可以可視化譜係數據瀏覽並通過REST API進行檢索,以支持與我們的目錄合作夥伴的集成。
開始與數據沿襲在統一目錄
數據沿襲可與Databricks高級和企業級,無需額外費用。如果您已經是Databricks的客戶,請遵循數據沿襲指南(AWS|Azure)開始。如果您不是Databricks的現有客戶,請注冊一個免費試用使用高級或企業工作區。