介紹數據湖泊

數據湖泊提供一個完整的和權威的數據存儲,數據分析,商業智能和機器學習

介紹數據湖泊

湖是什麼數據?

一個數據湖是一個中央位置,擁有大量數據在本土,原始格式。分層數據倉庫相比,在文件或文件夾存儲數據,數據使用一個湖平麵結構和對象存儲來存儲數據。對象存儲存儲數據與元數據標簽和一個獨特的標識符,這使得它更容易在區域定位和檢索數據,並提高了性能。通過利用廉價的對象存儲和開放格式,數據湖泊使許多應用程序數據的利用。

數據湖泊開發針對數據倉庫的局限性。為企業提供高性能和可伸縮的數據倉庫分析,它們是昂貴的和專有的和無法處理現代用例大多數公司正在尋找地址。數據湖泊通常用來鞏固一個組織所有的數據在一個中央位置,可以保存”,“而不需要征收模式(即。,數據是如何組織的正式結構)像一個數據倉庫。細化過程的所有階段的數據可以存儲在一個數據湖:原始數據可攝入和存儲與組織的結構,表格數據資源(如數據庫表),以及中間數據表生成的精煉過程中的原始數據。與大多數數據庫和數據倉庫,數據湖泊可以處理所有數據類型——包括非結構化和半結構化數據像圖片,視頻、音頻和文件——這是今天的機器學習和高級分析的關鍵用例。

為什麼你會使用數據湖嗎?

首先,湖泊是開放的數據格式,所以用戶避免鎖定專有係統像一個數據倉庫,已成為越來越重要的在現代數據體係結構。數據湖泊也高度耐用、低成本,因為他們的規模和杠杆對象存儲的能力。此外,先進的分析和機器學習對非結構化數據的一些最今天企業戰略重點。唯一能夠攝取各種格式的原始數據(結構化、非結構化、半結構化),連同提到的其他好處,使數據存儲的數據湖明確的選擇。

當適當的架構,數據湖泊啟用的能力:

數據湖挑戰

盡管他們的優點,但許多數據的承諾湖泊沒有意識到由於缺少一些關鍵功能:不支持事務,沒有執行數據質量或治理,可憐的性能優化。因此,大多數的企業已經成為數據中的數據湖泊沼澤。

由於這些原因,傳統數據湖本身不足以滿足企業的需要,尋求創新,這也是為什麼企業經常在複雜的體係結構,孤立的數據在不同的存儲係統:數據倉庫,數據庫和其他存儲係統在整個企業。簡化架構的統一所有數據在數據湖是第一步的公司渴望利用機器學習和數據分析來贏得未來十年。

lakehouse如何解決這些挑戰

答案數據湖泊是lakehouse的挑戰,這在上麵添加一個事務性存儲層。lakehouse使用類似的數據結構和數據管理功能的數據倉庫,而是直接運行在雲數據湖泊。最終,lakehouse允許傳統分析,數據科學和機器學習在同一個係統共存,所有在一個開放的格式。

lakehouse允許範圍廣泛的新的跨功能的企業級分析用例,BI和機器學習項目,可以釋放巨大的商業價值。數據分析師能收獲豐富的見解通過湖使用SQL查詢數據,數據科學家可以加入和豐富的數據集生成毫升模型與更大的精度,數據工程師可以構建自動化ETL管道,和商業情報分析人員可以創建視覺儀表盤和報表工具比以前更快和更容易。這些用例都可以同時進行數據湖,沒有提升和改變數據,盡管新數據流。

建立一個lakehouse三角洲湖

lakehouse建立成功,組織必須利用三角洲湖,開放格式數據管理和治理層相結合的最好的兩個湖泊和數據倉庫的數據。各行業,企業利用三角洲湖電力合作提供了一個可靠的、單一來源的真理。通過交付質量、可靠性、安全性和性能數據湖上——流和批處理操作——三角洲湖消除數據孤島,使分析整個企業的訪問。三角洲湖,客戶可以建立一個有成本效beplay体育app下载地址益的,高度可伸縮的lakehouse,消除數據孤島,為終端用戶提供自我分析。

了解更多關於三角洲湖

湖泊與數據lakehouses與數據倉庫

	數據湖	數據lakehouse	數據倉庫
類型的數據	所有類型:結構化數據、半結構化數據、非結構化(生的)數據	所有類型:結構化數據、半結構化數據、非結構化(生的)數據	結構化數據隻
成本	美元	美元	$ $ $
格式	開放格式	開放格式	關閉,專有格式
可伸縮性	尺度持有任何以低成本的數據量,無論類型	尺度持有任何以低成本的數據量,無論類型	擴大成為指數由於供應商成本更加昂貴
麵向的用戶	限製:數據科學家	機器學習統一:數據分析師、數據科學家,工程師	有限:數據分析師
可靠性	低質量數據沼澤	高質量的、可靠的數據	高質量的、可靠的數據
易用性	困難:探索大量原始數據可能很困難,沒有工具來組織和目錄數據	簡單:為數據倉庫的簡單性和結構提供了更廣泛的用例數據湖	簡單:數據倉庫的結構使得用戶能夠快速、輕鬆地訪問數據報告和分析
性能	可憐的	高	高