介紹數據湖泊
數據湖泊提供一個完整的和權威的數據存儲,數據分析,商業智能和機器學習
介紹數據湖泊
湖是什麼數據?
一個數據湖是一個中央位置,擁有大量數據在本土,原始格式。分層數據倉庫相比,在文件或文件夾存儲數據,數據使用一個湖平麵結構和對象存儲來存儲數據。對象存儲存儲數據與元數據標簽和一個獨特的標識符,這使得它更容易在區域定位和檢索數據,並提高了性能。通過利用廉價的對象存儲和開放格式,數據湖泊使許多應用程序數據的利用。
數據湖泊開發針對數據倉庫的局限性。為企業提供高性能和可伸縮的數據倉庫分析,它們是昂貴的和專有的和無法處理現代用例大多數公司正在尋找地址。數據湖泊通常用來鞏固一個組織所有的數據在一個中央位置,可以保存”,“而不需要征收模式(即。,數據是如何組織的正式結構)像一個數據倉庫。細化過程的所有階段的數據可以存儲在一個數據湖:原始數據可攝入和存儲與組織的結構,表格數據資源(如數據庫表),以及中間數據表生成的精煉過程中的原始數據。與大多數數據庫和數據倉庫,數據湖泊可以處理所有數據類型——包括非結構化和半結構化數據像圖片,視頻、音頻和文件——這是今天的機器學習和高級分析的關鍵用例。
為什麼你會使用數據湖嗎?
首先,湖泊是開放的數據格式,所以用戶避免鎖定專有係統像一個數據倉庫,已成為越來越重要的在現代數據體係結構。數據湖泊也高度耐用、低成本,因為他們的規模和杠杆對象存儲的能力。此外,先進的分析和機器學習對非結構化數據的一些最今天企業戰略重點。唯一能夠攝取各種格式的原始數據(結構化、非結構化、半結構化),連同提到的其他好處,使數據存儲的數據湖明確的選擇。
當適當的架構,數據湖泊啟用的能力:
電力數據科學和機器學習
湖泊允許您將原始數據轉換成數據準備SQL結構化數據分析,數據科學與低延遲和機器學習。原始數據可以保留無限期地以低成本為未來使用機器學習和分析。
集中,鞏固和目錄數據
集中式數據湖消除數據孤島的問題(如數據重複,多種安全策略和協作困難),提供下遊用戶一個地方尋找所有的數據來源。
快速和無縫集成不同的數據來源和格式
所有數據類型可以在數據收集和保留無限期湖,包括批處理和流數據、視頻、圖像、二進製文件和更多。由於數據提供了一個新數據的著陸區湖,它總是最新的。
民主化數據提供用戶自助服務工具
數據湖泊非常靈活,讓用戶完全不同的技能、工具和語言執行不同的分析任務。
數據湖挑戰
盡管他們的優點,但許多數據的承諾湖泊沒有意識到由於缺少一些關鍵功能:不支持事務,沒有執行數據質量或治理,可憐的性能優化。因此,大多數的企業已經成為數據中的數據湖泊沼澤。
可靠性的問題
沒有適當的工具,數據的湖泊會從數據可靠性的問題,使數據科學家和分析師很難推斷數據。這些問題源於困難結合批處理和流數據,數據損壞和其他因素。
緩慢的性能
湖的大小數據在數據的增加,傳統的查詢引擎的表現一直較慢。的一些瓶頸包括元數據管理、數據分區不當等等。
缺乏安全特性
湖泊的數據很難正確安全管理由於缺乏可見性和刪除或更新數據的能力。這些限製使其很難滿足監管機構的要求。
由於這些原因,傳統數據湖本身不足以滿足企業的需要,尋求創新,這也是為什麼企業經常在複雜的體係結構,孤立的數據在不同的存儲係統:數據倉庫,數據庫和其他存儲係統在整個企業。簡化架構的統一所有數據在數據湖是第一步的公司渴望利用機器學習和數據分析來贏得未來十年。
lakehouse如何解決這些挑戰
答案數據湖泊是lakehouse的挑戰,這在上麵添加一個事務性存儲層。lakehouse使用類似的數據結構和數據管理功能的數據倉庫,而是直接運行在雲數據湖泊。最終,lakehouse允許傳統分析,數據科學和機器學習在同一個係統共存,所有在一個開放的格式。
lakehouse允許範圍廣泛的新的跨功能的企業級分析用例,BI和機器學習項目,可以釋放巨大的商業價值。數據分析師能收獲豐富的見解通過湖使用SQL查詢數據,數據科學家可以加入和豐富的數據集生成毫升模型與更大的精度,數據工程師可以構建自動化ETL管道,和商業情報分析人員可以創建視覺儀表盤和報表工具比以前更快和更容易。這些用例都可以同時進行數據湖,沒有提升和改變數據,盡管新數據流。
建立一個lakehouse三角洲湖
lakehouse建立成功,組織必須利用三角洲湖,開放格式數據管理和治理層相結合的最好的兩個湖泊和數據倉庫的數據。各行業,企業利用三角洲湖電力合作提供了一個可靠的、單一來源的真理。通過交付質量、可靠性、安全性和性能數據湖上——流和批處理操作——三角洲湖消除數據孤島,使分析整個企業的訪問。三角洲湖,客戶可以建立一個有成本效beplay体育app下载地址益的,高度可伸縮的lakehouse,消除數據孤島,為終端用戶提供自我分析。
湖泊與數據lakehouses與數據倉庫
數據湖 | 數據lakehouse | 數據倉庫 | |
---|---|---|---|
類型的數據 | 所有類型:結構化數據、半結構化數據、非結構化(生的)數據 | 所有類型:結構化數據、半結構化數據、非結構化(生的)數據 | 結構化數據隻 |
成本 | 美元 | 美元 | $ $ $ |
格式 | 開放格式 | 開放格式 | 關閉,專有格式 |
可伸縮性 | 尺度持有任何以低成本的數據量,無論類型 | 尺度持有任何以低成本的數據量,無論類型 | 擴大成為指數由於供應商成本更加昂貴 |
麵向的用戶 | 限製:數據科學家 | 機器學習統一:數據分析師、數據科學家,工程師 | 有限:數據分析師 |
可靠性 | 低質量數據沼澤 | 高質量的、可靠的數據 | 高質量的、可靠的數據 |
易用性 | 困難:探索大量原始數據可能很困難,沒有工具來組織和目錄數據 | 簡單:為數據倉庫的簡單性和結構提供了更廣泛的用例數據湖 | 簡單:數據倉庫的結構使得用戶能夠快速、輕鬆地訪問數據報告和分析 |
性能 | 可憐的 | 高 | 高 |
Lakehouse最佳實踐
使用數據湖的著陸區所有數據
將你所有的數據都保存到您的數據沒有改變或湖聚合保存它為機器學習和數據血統的目的。
麵具數據包含之前進入你的私人信息
個人身份信息(PII)必須pseudonymized為了符合GDPR並確保它可以無限期保存。
安全數據湖——基於角色訪問控製
添加基於acl(訪問控製級別)允許更精確的調優和控製數據的安全性比僅基於角色控製湖。
可靠性和性能構建到您的數據通過使用三角洲湖湖
大數據的性質使得它難以提供相同級別的可靠性和性能可以與數據庫直到現在。湖泊三角洲湖帶來了這些重要特性數據。
目錄中的數據數據湖
使用數據目錄和元數據管理工具的攝入,使自助數據科學分析。