這個博客是我們的第二部分管理要點係列中,我們將關注話題,管理和維護數據磚環境是很重要的。在本係列中,我們將分享最佳實踐等主題工作區管理、數據治理、運維&自動化和成本跟蹤和退款-留意更多的博客很快!
磚Lakehouse平台已經走了很長的路Beplay体育安卓版本我們上次2020年6月對審計日誌記錄在博客中寫道。我們已經設置世界紀錄,收購的公司,推出新產品帶來的好處lakehouse架構全新的觀眾喜歡數據分析師和公民數據科學家。世界已經發生了巨大變化。我們中的許多人已經遠程工作的大部分時間,和遠程工作將增加了可接受的使用政策的壓力,如何測量他們被跟蹤。
因此,我們認為現在是一個很好的時間重溫審計日誌記錄對你的主題磚Lakehouse平台Beplay体育安卓版本。在這個博客中,我們將把我們的最佳實踐建議及時更新最新的特性,允許您從回顧性分析主動監視和報警——所有的重要事件發生在你的lakehouse:
帳戶審計日誌級別
集中式控製和統一目錄
簡單和可靠的審計日誌處理與達美住表
容易與磚的SQL查詢
簡單的可視化與數據磚SQL
自動報警與磚SQL
信任,但要核查。有360個Lakehouse可見性
最佳實踐綜述
結論
帳戶審計日誌級別
審計日誌是至關重要的原因——從合規成本控製。他們是你的權威lakehouse記錄發生的事情。但在過去,平台管理員必須配置審計日Beplay体育安卓版本誌記錄單獨為每個工作區,從而增加了開銷,由於組織的風險盲點工作區創建沒有啟用審計日誌。
現在客戶beplay体育app下载地址可以利用一個磚帳戶來管理所有用戶,組,工作區和你猜對了——審計日誌進行集中從一個地方。這對平台管理員讓生活更簡單,並從安全的角度來看風險要小得多。Beplay体育安卓版本一旦客戶配beplay体育app下载地址置審計日誌記錄在賬戶層麵,他們可以睡得很香的知識,我們將繼續提供低延遲的所有重要事件發生在他們的lakehouse——所有新的和現有的工作空間下創建帳戶。
查看文檔(AWS,GCP)建立帳戶級別審計日誌數據磚Lakehouse平台了。Beplay体育安卓版本
集中式控製和統一目錄
統一目錄(加州大學)是世界上第一個細粒度和集中治理層為所有的數據和人工智能產品在雲。結合集中式控製層和全麵審計日誌可以回答這樣的問題:
- 什麼是最受歡迎的數據資產在我的組織?
- 試圖未經授權地訪問我的數據產品,和他們試圖運行查詢是什麼?
- δ股票被限製隻信任網絡嗎?
- 哪些國家是我的三角洲的股票被訪問的?
- 美國是我的三角洲的股票被訪問的?
- 這位置是我的三角洲的股票被訪問的?
beplay体育app下载地址客戶已經在加州大學的預覽可以看到這樣子通過搜索的審計日誌事件名= =“unityCatalog”,或通過檢查提供的回購的示例查詢。如果你正在尋找這些類型的功能為你lakehouse請報名在這裏!
簡單和可靠的審計日誌處理三角洲生活表
成功客戶的一個標誌,我們看過一遍又一遍,那些專注於數據beplay体育app下载地址質量作為第一優先發展lakehouse速度比那些不。曆史上這是說起來容易做起來難。工程師已經花太多時間擔心諸如大小、管理和擴展基礎設施現在需要找到時間來整合他們的代碼與開源或者第三方數據質量和測試框架。,更重要的是,這些框架通常難以規模龐大的數據,使其適用於離散集成測試,但離開工程師與另一個頭痛當他們想要驗證representative-scale性能測試的結果。
進入三角洲生活表(DLT)。DLT,工程師們能夠把他們的數據代碼,利用內置的數據質量控製,這樣的時間和精力,否則他們將需要在上述任務可以被重定向到更多的生產活動,如確保附近永遠是壞的質量數據業務的關鍵決策過程。
因為ETL管道這一過程審計日誌記錄將受益匪淺的可靠性、可伸縮性和內置的DLT提供的數據質量控製,我們已經采取了ETL管道共享是我們的一部分以前的博客並轉換DLT。
這個DLT管道讀取JSON文件中包含您的審計日誌使用自動裝卸機,一個簡單而輕鬆地攝取數據的可伸縮的解決方案到lakehouse (GCP)看到AWS的文檔,Azure。然後創建一個銅和銀表每個帳戶和工作區級別操作,轉換數據,並使其更容易使用每一步。最後,它會創建一個表為每個黃金磚服務(詳見文檔AWS,Azure,GCP)
銀表允許您執行所有磚服務,詳細的分析調查等場景的特定用戶的行為在整個磚Lakehouse平台Beplay体育安卓版本。黃金表同時允許您執行更快的查詢有關特定的服務。這是特別有用當你想配置警報相關的具體行動。
下麵的例子將為客戶開箱即用的AWS和豐富。beplay体育app下载地址Azure磚客戶設立了他們的beplay体育app下载地址診斷日誌被送到一個Azure存儲賬戶,可能需要微調。原因是診斷日誌模式在Azure上略有不同,對嗎AWS和GCP。
得到新的DLT管道運行在您的環境,請使用以下步驟:
- 克隆的Github回購使用Git的回購集成(詳見文檔AWS,Azure,GCP)。
- 創建一個新的DLT管道,連接dlt_audit_logs.py筆記本(詳見文檔AWS,Azure,GCP)。你需要輸入以下配置選項:
INPUT_PATH:雲存儲路徑,你為審計日誌配置交付。這通常會是一個受保護的存儲用戶帳戶不暴露你的磚。
b。OUTPUT_PATH:雲存儲路徑你想使用審核日誌δ湖泊。這通常會是一個受保護的存儲用戶帳戶不暴露你的磚。
c。CONFIG_FILE:路徑audit_logs.json文件一旦檢出回購。 - 注意:一旦你通過UI編輯可配置的設置,您需要編輯JSON,這樣您就可以添加身份驗證所需的配置和INPUT_PATH OUTPUT_PATH集群對象:
AWS的。添加instance_profile_arn aws_attributes對象。
b。在Azure服務主體秘密添加到spark_conf對象。
c。對GCP添加google_service_account gcp_attributes對象。 - 現在你應該準備配置您的管道運行基於適當的時間表和觸發器。一旦成功了,您應當會看到類似這樣的:
有幾件事你應該知道:
- 管道流程數據基於可配置的日誌級別和服務名稱列表的基礎上CONFIG_FILE上麵引用的。
- 默認情況下,日誌級別ACCOUNT_LEVEL WORKSPACE_LEVEL。現在這些是唯一的審計水平,我們使用磚,但不能保證我們不會在將來添加額外的日誌級別。值得定期檢查審計日誌模式,以確保你沒有遺漏任何日誌,因為增加了新的審計水平(見文檔AWS,Azure,GCP)。
- 名可能會改變我們添加新特性,因此服務平台。Beplay体育安卓版本他們也可能取決於你是否利用等功能pci dss合規控製或增強的安全模式。你可以定期檢查在我們的公共文檔(服務名稱的列表AWS,Azure,GCP),但因為這是更大的可能性,我們還添加了一個檢測模式的DLT管道讓你意識到如果引入新服務的日誌你不期待,因此攝入lakehouse。閱讀有關我們如何使用預期的更多信息在三角洲生活表檢測潛在的這樣的數據質量問題。
期望阻止壞數據通過驗證和完整性檢查,避免流入表數據質量的錯誤與預定義的錯誤政策(失敗,下降,警報或檢疫數據)。
在dlt_audit_logs.py筆記本電腦你會注意到我們為每個表包括下列裝飾:
@dlt.expect_all ({})
這是我們為三角洲集數據的期望的生活方式表。您還會注意到,青銅表我們設定一個期望稱為unexpected_service_names我們比較傳入的值包含在名列給我們可配置的列表。如果檢測到新名在我們沒有跟蹤的數據,我們可以看到這個期望失敗,知道我們可能需要添加新的或無足跡的名我們的配置:
找到更多關於期望,看看我們的文檔AWS,Azure和GCP。
在磚,我們相信三角洲生活表是ETL的未來。如果你喜歡你所看到的,想了解更多,請查看我們的入門指南!
輕鬆查詢磚的SQL
既然你策劃審計日誌到青銅,白銀和黃金表,磚的SQL可以查詢與出色的性價比。如果您導航到數據瀏覽器(參見文檔AWS,Azure)你會發現青銅,白銀和黃金目標數據庫中的表內指定上麵的DLT配置。
潛在的使用情況下這可能是特別調查潛在的濫用,找出是誰創造的巨大的GPU集群走出你的預算。
為了讓你開始,我們提供一係列的例子賬戶和工作空間水平覆蓋服務和SQL查詢場景你會特別關心。你會發現這些檢查SQL筆記本當你克隆回購,但你可以複製和粘貼在磚SQL SQL來運行它們。注意,假設數據庫叫做audit_logs查詢。如果你選擇稱之為中的其他東西上麵的DLT配置,隻是audit_logs替換為您的數據庫的名稱。
簡單的可視化與磚的SQL
以及通過一流的SQL查詢數據和經驗閃電快速查詢引擎磚SQL允許您快速構建儀表盤與直觀的拖放界麵,然後與關鍵利益相關者分享。更重要的是,他們可以設置為自動刷新,確保你的決策者總是獲得最新的數據。
很難搶占的所有東西,你可能會想在這裏展示你的關鍵利益相關者,但是希望SQL查詢和相關的可視化演示這裏應該給你看到什麼是可能的:
δ股票被訪問是哪個國家的?
我的工作有多可靠?
失敗的登錄嚐試
峰值在失敗的登錄嚐試可以表明蠻力攻擊,應監測和趨勢。在下麵的圖表為例,常規的月度上漲可能旋轉30天的密碼政策的症狀,但一個特定用戶的激增在一月份看起來可疑。
你可以找到所有的SQL查詢用來構建這些可視化以及更多的除了示例SQL查詢提供的回購。
自動報警磚的SQL
與任何平台,有些事件會你Beplay体育安卓版本會關心別人,多和一些你關心的太多,你要主動告知時發生。好消息是,你可以很容易地配置數據磚SQL警告通知你當一個SQL查詢將返回一個擊中這些事件之一。你甚至可以做一些簡單的修改示例SQL查詢我們之前給你們開始:
- 更新查詢,使其時間約束(即通過添加一個時間戳> =當前日期()- 1)
- 更新查詢返回一個計數的事件你不希望看到(即通過添加一個count(*)和適當的WHERE子句)
- 現在您可以配置警報每天運行和觸發事件的計數> 0
- 對於更複雜的報警條件邏輯的基礎上,考慮使用情況報表(見文檔AWS,Azure)
例如,下麵的SQL查詢時可以用來提醒:
1。最後一天內已經有工作空間配置更改:
選擇requestParams。工作空間ConfKeys, requestParams.workspaceConfValues, email, COUNT(*) AS total FROM audit_logs.gold_workspace_workspace WHERE actionName = 'workspaceConfEdit' AND timestamp >= current_date() - 1 GROUP BY 1, 2, 3 ORDER BY total DESC
2。有下載的工件從工作區中可能包含數據的最後一天:
與downloads_last_day(選擇時間戳,電子郵件,這是actionName audit_logs。gold_workspace_notebook actionName在(“downloadPreviewResults”、“downloadLargeResults”)聯盟所有選擇的時間戳,電子郵件,這是actionName audit_logs。gold_workspace_databrickssql actionName在(“downloadQueryResult”)聯盟所有選擇的時間戳,電子郵件,這是actionName audit_logs。gold_workspace_workspace actionName在(“workspaceExport”)和requestParams。工作空間ExportFormat != "SOURCE" ORDER BY timestamp DESC ) SELECT DATE(timestamp) AS date, email, serviceName, actionName, count(*) AS total FROM downloads_last_day WHERE timestamp >= current_date() - 1 GROUP BY 1, 2, 3, 4
這些可以加上自定義提醒模板如下給平台管理員足夠的信息調查是否可接受的使用政策違反了:Beplay体育安卓版本
警戒”{{ALERT_NAME}}”狀態改為{{ALERT_STATUS}}
有下列意外事件在最後一天:
{{QUERY_RESULT_ROWS}}
看看我們的文檔說明如何配置警報(AWS,Azure),以及添加額外警惕目的地如鬆弛或PagerDuty (AWS,Azure)。
信任,但要核查。有360個Lakehouse可見性
磚的審計日誌提供全麵的記錄lakehouse執行的操作。然而,如果你不使用統一目錄(如果你不相信我,那麼你應該)那你的一些交互最關心底層雲提供商可能隻有捕獲日誌。一個例子可能會訪問你的數據,如果你使用原生雲訪問控製是唯一真正捕獲在粗粒度級別允許存儲訪問日誌。
按我們之前的博客,(以及其他原因)你可能也想加入你的磚與各種日誌記錄和審計日誌監控輸出捕獲從底層的雲提供商。,同時建議在前麵的博客還是有用的,請繼續關注未來修訂包括DLT管道進行這些工作負載!
最佳實踐綜述
總而言之,這裏有5個日誌和監測的最佳實踐管理員,我們談到了在本文中:
- 啟用審計日誌記錄在賬戶級別。從一開始你的可審核性lakehouse旅程允許你建立一個曆史基線。通常,你才意識到你有多需要審計日誌當你真的,真的需要他們。最好是有曆史基線比從這個錯誤中學習,相信我。
- 采用統一的目錄。使雲間和cross-workspace分析帶來了一個新的水平Lakehouse的治理和控製。
- 使用DLT自動化你的日誌管道——理想。這確保你執行數據衛生和及時性不需要很多複雜的代碼,甚至允許您設置簡單的通知和提醒如果(當)打破或改變。
- 使用一個大獎章架構你的日誌數據。這確保了一旦你管道帶來了高質量、及時的數據,它不會傾倒到一個數據庫中,沒有人能找到,就很容易使用磚SQL查詢!
- 使用磚SQL設置自動提醒你真正關心的事件
- 把你的磚審計日誌到更廣泛的生態係統日誌。這可能包括雲提供商日誌和從你的身份提供商日誌或其他第三方應用程序。創建一個360度的觀點發生了什麼在你Lakehouse尤其相關景觀在當今不穩定的安全!
結論
在兩年前我們對審計日誌記錄的上一篇博文,磚Lakehouse平台Beplay体育安卓版本明顯,世界已經改變了。我們大多數人已經遠程工作在這段時間裏,但遠程工作將增加壓力和審查可接受的使用政策和如何測量他們被跟蹤。幸運的是,磚Lakehouse平台Beplay体育安卓版本已經和繼續作出巨大的進步讓這個問題更加簡單數據團隊管理。
這個博客的作者要感謝我們之前博客的作者對這些主題:
- 米克羅斯克裏斯汀
- 克雷格·Ng
- 安娜Shrestinian
- 阿Garg
- Sajith Appukuttan
站在巨人的肩膀上。