數據湖的最佳實踐
數據湖泊提供一個完整的和權威的數據存儲,數據分析,商業智能和機器學習
數據湖的最佳實踐
在前麵的部分中共享,lakehouse是一個平台架構,使用類似的數據結構和數據管理功能與數據倉庫,而Beplay体育安卓版本是直接運行在低成本、靈活的存儲用於雲數據湖泊。先進的分析和對非結構化數據的機器學習是當今企業戰略重點之一,而攝取的能力各種格式的原始數據(結構化、非結構化、半結構化的),一個數據湖是這一明確的選擇,簡化架構。最終,Lakehouse架構-湖圍繞數據允許傳統分析,數據科學和機器學習在同一個係統共存。
使用數據作為原始數據的基礎和著陸區湖
當你將新數據添加到數據湖,重要的是不要執行任何數據轉換你的原始數據(有一個例外,個人身份信息(見下文)。數據應該保存在它的原生格式,所以沒有無意中丟失的信息聚合或修改它。即使清洗空值的數據,例如,可以損害良好的數據科學家,誰能看似擠出額外的分析價值的不僅僅是數據,但甚至缺乏。
然而,數據工程師需要剔除PII(個人身份信息)從任何數據源包含它,代之以一個惟一的ID,之前那些湖可以保存到數據來源。這個過程中保持一個人之間的聯係及其數據分析的目的,但確保用戶隱私,遵守法規GDPR和CCPA數據。以來的一個主要目標數據的湖是無限期保存原始數據資產,這一步可以保留的數據,否則需要扔掉。
保護lakehouse角色——和視圖的訪問控製
傳統的基於角色的訪問控製(像我的角色在AWS和基於角色的訪問控製在Azure)為數據管理提供一個很好的起點湖安全,但他們不夠細粒度對許多應用程序。相比之下,基於訪問控製允許精確的權限邊界切到個人專欄,行或筆記本電池水平,使用SQL視圖。SQL是最簡單的方法實現這樣一個模型,由於其普遍性和簡單過濾基於謂詞條件和能力。
基於訪問控製可在現代統一的數據平台上,並通過憑證可以與雲本機集成基於角色控製直通,消除需要交出敏感的雲提供商的憑證。Beplay体育安卓版本一旦設置,管理員可以通過將用戶映射到基於角色的權限,然後在精細層基於視圖的權限擴展或收縮的權限設置基於每個用戶的具體情況。你應該定期檢查訪問控製權限,以確保它們不會成為過時。
建立可靠性和ACID事務lakehouse通過三角洲湖
直到最近,ACID事務對數據不可能湖泊。然而,他們現在可以通過引入開源三角洲湖,將數據倉庫數據的可靠性和一致性湖泊。
ACID屬性(原子性、一致性、隔離性和持久性)的屬性數據庫事務通常是發現在傳統的關係數據庫管理係統(rdbms)的係統。他們理想的數據庫、數據倉庫和數據湖泊都因為他們確保數據的可靠性、完整性和可信賴性,防止一些上述汙染來源的數據。
三角洲湖構建在開源鑲花的速度和可靠性(已經高性能文件格式),添加事務擔保,可擴展的元數據處理和批處理和流媒體的統一。這也是100%兼容Apache火花API,所以它能夠無縫地使用火花統一分析引擎。了解更多關於三角洲湖和邁克爾時常要網絡研討會題為湖泊三角洲湖:開源的可靠性數據或看一個快速入門指南三角洲湖。
目錄lakehouse中的數據
為了實現一個成功的lakehouse策略,重要的是為用戶正確編目新的數據在進入您的數據,並不斷的牧師,以確保它仍然更新。目錄是一個有組織的數據,綜合存儲表的元數據,包括表和列描述,模式,數據沿襲和更多的信息。它是下遊消費者的主要方式(例如,BI和數據分析師)可以發現哪些數據是可用的,它意味著什麼,以及如何使用它。它應該提供給用戶一個中央平台或在一個共享庫中。Beplay体育安卓版本
的攝入,數據管理員應該鼓勵(或需要)用戶“標簽”新數據源或表信息——包括業務單位、項目業主、數據質量水平等等——這樣他們就可以進行排序,比較容易發現。在完美的世界裏,這種風氣的注釋膨脹成一個全公司範圍內的承諾仔細標記新數據。至少,數據管理員可以要求任何新的提交數據注釋和湖,隨著時間的推移,希望培養一種協作的文化管理,標簽和分類數據成為一個相互勢在必行。beplay娱乐ios
有很多軟件可以簡化數據編目。主要的雲提供商提供他們自己的專有數據目錄軟件產品,即Azure數據目錄和AWS膠水。外,Apache地圖集是可用的開源軟件,和其他選項包括從Alation祭,Collibra Informatica,等等。
lakehouse開始
現在你理解構建lakehouse的價值和重要性,下一步是建立你的lakehouse的基礎三角洲湖。檢查我們的學習或多或我們的網站免費試著磚。