Hadoop是什麼?

免費試著磚

開始

Apache Hadoop是一個基於java的開放源碼的軟件平台管理大數據應用程序的數據處理和存儲。Beplay体育安卓版本平台通過Beplay体育安卓版本分發Hadoop大數據在集群中的節點計算和分析工作,將他們分解成較小的工作負載,可以並行運行。一些關鍵的Hadoop的好處是可伸縮性、彈性和靈活性。Hadoop分布式文件係統(HDFS)提供了可靠性和彈性通過複製任何節點集群的集群中的其他節點,防止硬件或軟件故障。Hadoop的靈活性允許存儲任何數據格式包括結構化和非結構化數據。

從Hadoop數據遷移Lakehouse假人
以更低的成本更快見解lakehouse當你遷移。

立即下載

但是,Hadoop架構提出一係列挑戰,特別是隨著時間的推移。Hadoop可以過於複雜,需要大量的資源和專長,建立,維護和升級。也不僅費時而且效率不高由於頻繁讀寫用於執行計算。Hadoop的長期生存能力繼續降低Hadoop作為主要供應商開始從平台轉移,因為加速需要數字化促使許多公司使用Hadoop重新評估他們的關係。Beplay体育安卓版本最好的解決方案現代化從Hadoop數據平台遷移到磚Lakehouse平台。Beplay体育安卓版本閱讀更多關於使用Hadoop的挑戰,轉向現代數據平台,在我們Beplay体育安卓版本博客。

Hadoop編程是什麼?

在Hadoop框架中,主要是用Java編寫的代碼但一些本地代碼位於c .此外,命令行實用程序通常寫成shell腳本。Hadoop MapReduce, Java是最常用的,但通過Hadoop流等模塊,用戶可以使用他們選擇的編程語言來實現的map和reduce函數。

Hadoop的數據庫是什麼?

Hadoop數據存儲並不是一個解決方案或關係數據庫。相反,它的目的作為一個開源框架是處理大量數據的實時同步。

數據存儲在HDFS中,然而,這被認為是結構化的,不符合作為一個關係數據庫。事實上,使用Hadoop,數據可以存儲在一個非結構化,半結構化或結構化的形式。這允許更靈活的公司來處理大數據的方式滿足其業務需求。

Hadoop是什麼類型的數據庫?

從技術上講,Hadoop本身不是一種類型的數據庫,如SQL或RDBMS。相反,Hadoop框架給用戶處理解決廣泛的數據庫類型。

Hadoop是一個軟件生態係統,讓企業處理海量數據在短的時間量。這是通過促進使用大規模並行計算機處理。各種數據庫例如Apache HBase可以分散在數據節點集群包含成百上千的商品服務器上。

Hadoop是何時被發明的?

Apache Hadoop出生的日益需要處理大量的大數據並提供網絡更快的雅虎和穀歌等搜索引擎結果起步。

靈感來自穀歌的MapReduce編程模型,將應用程序劃分為小的分數在不同的節點上運行,Doug切割和邁克Cafarella Hadoop在2002年開始工作時在Apache Nutch項目。據《紐約時報》上的一篇文章,道格的名字命名Hadoop他兒子的玩具大象。

幾年後,Hadoop從Nutch剝離出來。Nutch專注於網絡爬蟲元素,Hadoop成為分布式計算和處理部分。減少兩年後加入雅虎,雅虎發布Hadoop在2008年作為一個開源項目。Hadoop的Apache軟件基金會(ASF)向公眾提供2012年11月作為Apache Hadoop。

Hadoop的影響是什麼?

Hadoop是一個主要的大數據的發展空間。事實上,它被譽為現代湖雲數據的基礎。Hadoop民主化的計算能力,使企業分析和查詢大數據集在一個可伸縮的方式使用免費,開源軟件和便宜的,現成的硬件。

這是一個重大的發展,因為它提供了一個可行的替代專有的數據倉庫(DW)解決方案和關閉數據格式——在那之前統治。

與Hadoop的引入,組織很快就將訪問存儲和處理大量數據的能力,提高計算能力,容錯,數據管理的靈活性,降低成本和DWs相比,和更大的可伸縮性。最終,Hadoop為未來大數據分析的發展鋪平了道路,如Apache的引入火花。

Hadoop用於什麼?

當涉及到Hadoop,可能的用例幾乎是無窮無盡的。

零售

大型組織有更多的客戶數據可以比以往任何時候都。但通常,很難使大量看似無關的數據之間的聯係。當英國零售商瑪莎百貨Hadoop-powered部署Cloudera企業結果,他們多留下了深刻的印象。

Cloudera使用Hadoop-based支持和服務數據的管理和處理。實現雲計算平台後不久,瑪莎發現他們能夠成功地利用他們的數據大大改善了預測分析。Beplay体育安卓版本

這使他們有更高效的倉庫使用和防止缺貨“意想不到”的山峰中需求和獲得巨大的競爭優勢。

金融

Hadoop也許更適合金融部門比其他任何。在早期,主要使用的軟件框架很快掛鉤處理高級算法涉及風險建模。這正是風險管理的類型,可以幫助避免信用互換災難導致了2008年的經濟衰退。

銀行也意識到這同樣的邏輯也適用於風險管理為客戶投資組合。今天,是共同的金融機構實現Hadoop來更好地管理金融客戶的資產的安全性和性能。摩根大通隻是許多行業巨頭之一,使用Hadoop來管理指數越來越多的來自世界各地的客戶數據。

醫療保健

是否國有化和私有化,任何規模的衛生保健提供者處理大量的數據和客戶信息。Hadoop框架允許醫生、護士和護理人員來獲得他們需要的信息,當他們需要它,它也很容易聚合數據,提供可行的見解。這可以適用於公共衛生問題,更好的診斷,治療和改善更多。

學術和研究機構還可以利用一個Hadoop框架來提高他們的努力。例如,遺傳領域的疾病,包括癌症。我們人類基因組繪製出來,總共有近三十億個堿基對。從理論上講,一切治療的疾病現在在我們麵前的麵孔。

但識別複雜的關係,係統(比如Hadoop將需要處理如此大量的信息。

安全與執法

Hadoop可以幫助改善國家和地方安全的有效性,。當談到解決相關犯罪分布在多個地區,Hadoop框架可以簡化執法的過程通過連接兩個看似孤立的事件。通過減少時間連接情況下,機構能夠付諸於行動提醒其他機構和公眾盡快。

在2013年,國家安全局Hadoop (NSA)認為開源軟件是優於昂貴的替代品已經實現。他們現在使用的框架來幫助檢測恐怖主義、網絡犯罪和其他威脅。

Hadoop是如何工作的呢?

Hadoop是一個框架,允許大型數據集的分布在集群的硬件。Hadoop處理同時在多個服務器上並行執行。

客戶提交Hadoop數據和程序。簡而言之,HDFS (Hadoop的核心組件)處理和分布式文件係統的元數據。接下來,Hadoop MapReduce處理和轉換的輸入/輸出數據。最後,紗把跨集群任務。

使用Hadoop,客戶可以更有效地使用商品資源的高可用性和一個內置的故障點檢測。此外,客戶可以快速響應時間與相關業務係統在執行查詢。

總之,Hadoop提供了一個相對簡單的解決方案組織要充分利用大數據。

Hadoop寫的是什麼語言?

Hadoop框架本身主要是由Java。其他編程語言包括一些本地代碼用C和命令行shell腳本。但是,Hadoop在許多其他語言編寫的程序可以包括Python或c++。這允許程序員的靈活性與他們最熟悉的工具。

如何使用Hadoop

當我們談及,Hadoop為組織創造了一個簡單的解決方案需要管理大數據。但這並不意味著它總是簡單的使用。從上麵的用例中,我們可以學到如何選擇實現Hadoop框架非常靈活。

你的業務分析師、數據科學家,和開發人員。決定使用Hadoop將取決於你的組織及其目標。

Hadoop是大多數組織而不是每個公司應該重新評估他們使用Hadoop的關係。如果您的業務處理大量數據作為其核心流程的一部分,Hadoop提供了一種靈活的、可擴展的和可負擔得起的解決方案,滿足您的需要。從那裏,主要是你和你的團隊的想象力和技術能力。

Hadoop查詢示例

這裏有一些如何查詢Hadoop的例子:

Apache蜂巢

Apache蜂巢是早期使用Hadoop如何查詢SQL的首選解決方案。這個模塊模擬行為,語法和MySQL的接口編程簡單。這是一個偉大的選擇如果你已經大量使用的Java應用程序,因為它有一個內置的Java API和JDBC驅動程序。蜂巢為開發人員提供了一個快速和簡單的解決方案也是相當有限的軟件,而緩慢而飽受隻讀功能。

IBM BigSQL

這個來自IBM的提供是一種高性能大規模並行處理(MPP)的SQL引擎Hadoop。其查詢解決方案迎合企業的需要在一個穩定和安全的環境。除了訪問HDFS數據外,它還可以拉從RDBMS, NoSQL數據庫,WebHDFS和其他來源的數據。

Hadoop生態係統是什麼?

Hadoop是一個通用名稱,這個詞可能是指下列:

整體Hadoop生態係統,包括核心模塊和相關子模塊。
Hadoop的核心模塊,包括Hadoop分布式文件係統(HDFS),另一個資源談判代表(紗),Hadoop MapReduce,常見的(下麵討論)。這是一個典型的Hadoop部署的基本構建塊。
Hadoop-related子模塊,包括:Apache蜂巢,Apache黑斑羚,Apache豬,和Apache動物園管理員,和Apache水槽等。這些相關的軟件可以用來定製、改進或擴展核心Hadoop的功能。

Hadoop的核心模塊是什麼?

HDFS——Hadoop分布式文件係統。HDFS是一個基於java的係統,允許將大型數據集存儲在集群中的節點容錯的方式。
紗——另一個資源談判代表。紗用於集群資源管理、計劃任務,在Hadoop上運行和調度工作。
MapReduce- - - - - -MapReduce既是一種編程模型和大數據處理引擎用於大型數據集的並行處理。最初,在Hadoop MapReduce是唯一執行引擎可用。但是,後來Hadoop增加了對其他人的支持,包括Apache特斯和Apache火花。
Hadoop常見Hadoop共同提供了一組服務跨庫和工具來支持其他Hadoop模塊。

Hadoop生態係統組成部分是什麼?

幾個核心組件構成了Hadoop生態係統。

HDFS

Hadoop分布式文件係統是所有數據存儲開始和結束。這個組件管理大型數據集跨各種結構化和非結構化數據節點。同時,它維護元數據日誌文件的形式。有兩個HDFS的輔助組件:NameNode DataNode。

NameNode

主守護進程在Hadoop的HDFS是NameNode。這個組件維護文件係統名稱空間和調節說文件的客戶端訪問。它也被稱為主節點和存儲元數據塊的數量和他們的位置。它主要由文件和目錄並執行文件係統執行比如命名,關閉和打開文件。

DataNode

第二個組件是奴隸DataNode守護進程和命名。這HDFS組件存儲實際數據或執行客戶所要求的讀寫功能塊。這意味著DataNode還負責副本創建、刪除和複製所指示的主NameNode。

DataNode包含兩個係統文件,一個用於數據和一個用於記錄塊的元數據。當應用程序啟動時,握手主人和奴隸之間發生守護進程來驗證名稱空間和軟件版本。任何不匹配會自動記下DataNode。

MapReduce

Hadoop MapReduce的核心處理組件Hadoop生態係統。這個軟件提供了一個簡單的框架應用程序編寫時處理大量的結構化和非結構化數據。這主要是通過跨各個節點的數據並行處理的便利商品硬件。

MapReduce處理來自客戶機的作業調度。用戶所請求的任務分為獨立的任務和流程。接下來,這些MapReduce工作分化成子任務在整個商品服務器集群和節點。

這是通過兩個階段來完成;地圖階段和減少階段。在映射階段,數據集轉化為另一組數據分解成鍵/值對。接下來,減少階段轉換輸出根據程序員通過InputFormat類。

程序員指定MapReduce的兩個主要功能。Map函數是處理數據的業務邏輯。Reduce函數生成中間數據的彙總和總輸出的映射函數,產生最終的輸出。

紗

簡而言之,Hadoop MapReduce的紗線是一個新的和改進版本。然而,這並不是一個完全準確的畫麵。這是因為紗也用於調度和處理序列的執行工作。但紗線是Hadoop的資源管理層運行在每個作業作為一個獨立的Java應用程序的數據。

作為框架的操作係統,紗線可以批處理和數據處理在一個平台。Beplay体育安卓版本遠高於MapReduce的功能,紗允許程序員構建交互和實時流媒體應用程序。

紗允許程序員需要盡可能多的應用程序運行在同一集群。它提供了一個安全、穩定的基礎運營管理和共享係統資源的最大效率和靈活性。

有哪些受歡迎的例子Hadoop-related軟件?

其他受歡迎的包不嚴格核心Hadoop模塊的一部分,但與他們一起經常使用的包括:

Apache蜂巢是數據倉庫軟件,Hadoop上運行,使用戶能夠處理數據在HDFS中使用一個叫做HiveQL sql的查詢語言。
Apache黑斑羚是開源的,原生分析數據庫Apache Hadoop。
Apache豬是一種工具,通常是使用Hadoop MapReduce抽象在分析大型數據集表示為數據流。豬可以操作,比如加入,過濾、排序和加載。
Apache管理員是一個集中的服務使高度可靠的分布式處理。
Apache Sqoop是一個工具用於高效地傳輸大量數據之間Apache Hadoop如關係數據庫和結構化數據存儲。
Apache Oozie是一個工作流調度係統管理Apache Hadoop的工作。Oozie工作流圖工作指導非周期性(無進取心的人)的行為。

興趣的?閱讀更多關於Hadoop生態係統。

如何使用Hadoop來分析

根據數據源和組織需求,有三個主要方法使用Hadoop框架分析。

部署在企業數據中心(年代)

這常常是一個時效和這些企業財務狀況良好選擇必要的現有資源。否則,設置所需的技術設備和IT人員可能過分擴展貨幣和團隊資源。這個選項確實給企業更大的控製數據的安全和隱私。

與雲

企業渴望一個更快速的實現,降低前期成本和降低維護要求希望利用基於雲的服務。雲提供商,數據和分析在商品的硬件上運行在雲中存在。這些服務流線的處理大數據在一個合理的價格,但有一定的缺點。

首先,任何在公共網絡黑客等公平遊戲。其次,服務中斷的互聯網和網絡提供商可以磨你的業務係統停止。對於現有框架用戶來說,他們可能需要類似的需要從Hadoop遷移到Lakehow架構。

本地供應商

那些選擇更好的正常運行時間,隱私和安全將會發現所有三件事內部Hadoop提供者。這些供應商提供最好的兩個世界。他們可以簡化這個過程,提供所有設備、軟件和服務。但由於基礎設施是本地的,你獲得的所有好處,大型企業數據中心。

Hadoop的好處是什麼?

可伸縮性-與傳統的係統限製數據存儲、Hadoop是可伸縮的,因為它運行在分布式環境中。這使得構建早期數據架構師數據的湖泊在Hadoop。了解更多的曆史和湖泊演變的數據。
彈性Hadoop分布式文件係統(HDFS)從根本上是有彈性。數據存儲在任何節點的Hadoop集群也複製到集群中的其他節點準備硬件或軟件故障的可能性。這種故意冗餘設計確保容錯。如果一個節點出現故障,總有一個備份數據的集群。
靈活性——不同於關係數據庫管理係統,使用Hadoop時,您可以在任何存儲數據格式,包括半結構化或非結構化的格式。Hadoop使企業輕鬆地訪問新的數據源,利用不同類型的數據。

使用Hadoop架構的挑戰是什麼?

複雜性Hadoop是一個低級的、基於java的框架,為最終用戶可能過於複雜和困難。Hadoop的架構也需要大量的專業知識和資源來建立,維護和升級。
性能Hadoop使用頻繁的讀寫磁盤執行計算,這是費時和低效的框架相比,目標是盡可能在內存中存儲和處理數據,像Apache火花。
長期生存能力——2019年,世界看到了一個巨大的解開Hadoop內球體。穀歌,其開創性的2004年論文在MapReduce支持創建Apache Hadoop,完全停止使用MapReduce,在推特上穀歌高級副總裁的技術基礎設施,烏爾。也有一些非常引人注目的合並和收購在Hadoop的世界。此外,在2020年,一個領先的Hadoop供應商改變了產品集遠離Hadoop-centric, Hadoop現在被認為是“比技術的哲學”。最後,2021一年的有趣的變化。2021年4月,Apache軟件基金會宣布了退休的十個項目從Hadoop生態係統。2021年6月,Cloudera同意私人。這個決定的影響在Hadoop用戶仍需拭目以待。這種日益增長的擔憂與加速需要數字化促使許多公司使用Hadoop重新評估他們的關係。

哪些公司使用Hadoop嗎?

Hadoop收養是成為成功的跨國公司和企業標準。以下是今天使用Hadoop的公司列表:

Adobe——軟件和服務提供商使用Apache Hadoop和HBase數據存儲和其他服務。
易趣——使用搜索引擎優化和研究框架。
A9——一個亞馬遜的子公司,負責技術相關的搜索引擎和搜索廣告業務。
LinkedIn——作為一個最受歡迎的社會和專業網站,該公司使用許多Apache模塊包括Hadoop,蜂巢,卡夫卡,Avro, DataFu。
Spotify——瑞典音樂流媒體巨頭使用Hadoop框架分析和報告內容生成和聽力的建議。
臉譜網——社交媒體巨頭保持世界最大的Hadoop集群,一個報道的數據集,每天PB的一半。
InMobi——移動營銷平台利用HDFS和Apache豬/Beplay体育安卓版本 MRUnit任務涉及分析,數據科學和機器學習。

Hadoop的成本多少錢?

Hadoop框架本身是一個開源的基於java的應用程序。這意味著,不同於其他大數據的替代品,它是免費的。當然,所需的商品軟件的成本取決於規模。

當涉及到服務實現Hadoop框架就會有一些定價選項:

每個節點——最常見
每結核病
免費產品有或沒有僅限技術支持
一體化的成套服務,包括硬件和軟件
基於雲的服務與自身分解定價選項——可以支付你需要的或支付

閱讀更多關於使用Hadoop的挑戰,轉向現代數據平台,在我們Beplay体育安卓版本博客。

額外的資源

回到術語表