曆史和湖泊演變的數據

數據湖泊提供一個完整的和權威的數據存儲,數據分析,商業智能和機器學習

曆史和湖泊演變的數據

早期的數據管理:數據庫

在早期的數據管理,關係數據庫公司使用的主要方法是收集、存儲和分析數據。關係數據庫,也被稱為關係數據庫管理係統(rdbms),為企業提供了一種方式來存儲和分析高度結構化的數據對他們的客戶使用結構化查詢語言(SQL)。beplay体育app下载地址多年來,關係數據庫滿足公司的需求:需要存儲的數據量相對較小,和關係數據庫簡單和可靠。直到今天,關係數據庫存儲高度結構化的數據仍然是一個很好的選擇,不是太大。然而,數據的速度和規模即將爆炸。

互聯網的興起,和數據倉庫

隨著互聯網的興起,企業發現自己沉浸在客戶數據。存儲所有的數據,一個數據庫不再是足夠的。公司經常建立多個數據庫由業務部門來保存數據。隨著數據量的增長而增長,公司可以經常得到許多與不同的用戶斷開連接的數據庫和目的。

一方麵,這是一個祝福:用更多更好的數據,企業能夠更準確的目標客戶和管理他們的行動比以往任何時候都要多。beplay体育app下载地址另一方麵,這導致數據倉庫:跨組織的分散,分散存儲的數據。沒有辦法集中和綜合數據,許多企業未能綜合成可行的見解。這種疼痛導致的數據倉庫。數據倉庫。

數據倉庫是天生的統一公司的結構化數據在同一屋簷下

如此多的數據存儲在不同的源係統,企業需要一種方法來集成它們。的想法“客戶”的360度視圖的概念,以及數據倉庫出生來滿足這種需要和整個組織團結不同的數據庫。

數據倉庫成為一個技術,彙集了一個組織的關係數據庫在一個雨傘下的集合,允許數據查詢和視為一個整體。起初,數據倉庫通常是運行在昂貴的本地基於硬件硬件廠商Teradata和Vertica等,後來成為可用的雲。數據倉庫成為大公司最主要的數據架構在90年代末開始。這種技術的主要優點包括:

許多數據源的集成
數據進行讀訪問優化
運行快速臨時分析查詢的能力
數據審計、治理和血統

數據倉庫適合他們的目的,但是隨著時間的推移,這項技術變得明顯的缺點。

無法存儲非結構化,原始數據
昂貴的,專有的硬件和軟件
擴展困難由於緊密耦合的存儲和計算能力

Apache Hadoop™和火花™使非結構化數據分析,並奠定了現代數據湖泊

的“大數據”在2000年代初,公司發現,他們需要對數據集的分析,不能安裝在一台計算機。此外,他們需要的數據類型分析並不總是整齊的結構,企業需要利用非結構化數據的方法。使大數據分析成為可能,考慮的成本和供應商數據倉庫,Apache Hadoop™是一個開源的分布式數據處理技術。

Hadoop是什麼?

Apache Hadoop™是開源軟件的集合,允許將大型數據集的大數據分析處理的計算機集群並行工作。它包括Hadoop MapReduce,Hadoop分布式文件係統(HDFS)和紗(另一個資源談判代表)。HDFS允許將一個數據集存儲在不同的存儲設備,就好像它是一個文件。這工作跟MapReduce算法密切相關,決定如何分割大型計算任務(如統計計數或聚合)為許多較小的任務,可以運行在並行計算集群。

Hadoop是一個分水嶺的引入對大數據分析,主要有兩個原因。首先,它意味著一些公司可能從昂貴的專有數據倉庫軟件內部計算集群運行Hadoop免費和開源。第二,它允許公司來分析大量的非結構化數據,在以前是不可能的。Hadoop之前,企業數據倉庫通常隻分析高度結構化的數據,但現在他們可以從大量的數據中提取價值,包括半結構化和非結構化數據。一旦公司有能力分析原始數據,收集和存儲這些數據變得越來越重要,為現代數據湖。

早期的數據湖泊是建立在Hadoop

早期數據建立在Hadoop MapReduce和湖泊HDFS享受不同程度的成功。這些早期的數據湖泊使用Apache蜂巢™來支持用戶查詢數據與Hadoop-oriented SQL引擎。一些早期的數據湖泊成功,而另一些人失敗了由於Hadoop的複雜性和其他因素。直到今天,許多人仍然把“數據湖”一詞與Hadoop,因為它是第一個框架,使大量的非結構化數據的收集和分析。然而,今天,許多現代數據湖架構已經從本地轉移Hadoop在雲中運行的火花。不過,這些最初的嚐試很重要,因為這些Hadoop data湖湖泊是現代的前兆數據。隨著時間的推移,Hadoop的受歡迎程度趨於平穩,像大多數組織的問題不能像緩慢的性能,克服有限的安全性和缺乏支持等重要的用例流。

Apache火花:統一的現代數據分析發動機驅動湖泊

Hadoop的引入後不久,Apache火花介紹了。引發了MapReduce更進一步的想法,提供一個強大的、廣義分布式計算框架大數據。隨著時間的推移,引發數據從業者中盛行,主要因為它是易於使用,在基準測試中表現良好,並提供了額外的功能,增加了其效用和擴大了它的吸引力。例如,火花的交互模式啟用數據科學家對大數據集進行探索性數據分析,而不用花時間等低附加值的工作編寫複雜的代碼來將數據轉換為一個可靠的來源。火花也能訓練大規模機器學習模型,大數據集使用SQL查詢,並與火花迅速過程實時數據流,增加用戶的數量明顯的和潛在的應用技術。

引入以來,引發的聲望越來越多,這已成為事實上的標準對於大數據處理,在很大程度上由於提交的社區成員和專用開源貢獻者。今天,許多現代數據湖架構使用火花作為處理引擎,使執行ETL數據工程師和科學家,完善他們的數據,機器學習和訓練模式。