Apache Hadoop是一個基於java的開放源碼的軟件平台管理大數據應用程序的數據處理和存儲。Beplay体育安卓版本平台通過Beplay体育安卓版本分發Hadoop大數據在集群中的節點計算和分析工作,將他們分解成較小的工作負載,可以並行運行。一些關鍵的Hadoop的好處是可伸縮性、彈性和靈活性。Hadoop分布式文件係統(HDFS)提供了可靠性和彈性通過複製任何節點集群的集群中的其他節點,防止硬件或軟件故障。Hadoop的靈活性允許存儲任何數據格式包括結構化和非結構化數據。
但是,Hadoop架構提出一係列挑戰,特別是隨著時間的推移。Hadoop可以過於複雜,需要大量的資源和專長,建立,維護和升級。也不僅費時而且效率不高由於頻繁讀寫用於執行計算。Hadoop的長期生存能力繼續降低Hadoop作為主要供應商開始從平台轉移,因為加速需要數字化促使許多公司使用Hadoop重新評估他們的關係。Beplay体育安卓版本最好的解決方案現代化從Hadoop數據平台遷移到磚Lakehouse平台。Beplay体育安卓版本閱讀更多關於使用Hadoop的挑戰,轉向現代數據平台,在我們Beplay体育安卓版本博客。
在Hadoop框架中,主要是用Java編寫的代碼但一些本地代碼位於c .此外,命令行實用程序通常寫成shell腳本。Hadoop MapReduce, Java是最常用的,但通過Hadoop流等模塊,用戶可以使用他們選擇的編程語言來實現的map和reduce函數。
Hadoop數據存儲並不是一個解決方案或關係數據庫。相反,它的目的作為一個開源框架是處理大量數據的實時同步。
數據存儲在HDFS中,然而,這被認為是結構化的,不符合作為一個關係數據庫。事實上,使用Hadoop,數據可以存儲在一個非結構化,半結構化或結構化的形式。這允許更靈活的公司來處理大數據的方式滿足其業務需求。
從技術上講,Hadoop本身不是一種類型的數據庫,如SQL或RDBMS。相反,Hadoop框架給用戶處理解決廣泛的數據庫類型。
Hadoop是一個軟件生態係統,讓企業處理海量數據在短的時間量。這是通過促進使用大規模並行計算機處理。各種數據庫例如Apache HBase可以分散在數據節點集群包含成百上千的商品服務器上。
Apache Hadoop出生的日益需要處理大量的大數據並提供網絡更快的雅虎和穀歌等搜索引擎結果起步。
靈感來自穀歌的MapReduce編程模型,將應用程序劃分為小的分數在不同的節點上運行,Doug切割和邁克Cafarella Hadoop在2002年開始工作時在Apache Nutch項目。據《紐約時報》上的一篇文章,道格的名字命名Hadoop他兒子的玩具大象。
幾年後,Hadoop從Nutch剝離出來。Nutch專注於網絡爬蟲元素,Hadoop成為分布式計算和處理部分。減少兩年後加入雅虎,雅虎發布Hadoop在2008年作為一個開源項目。Hadoop的Apache軟件基金會(ASF)向公眾提供2012年11月作為Apache Hadoop。
Hadoop是一個主要的大數據的發展空間。事實上,它被譽為現代湖雲數據的基礎。Hadoop民主化的計算能力,使企業分析和查詢大數據集在一個可伸縮的方式使用免費,開源軟件和便宜的,現成的硬件。
這是一個重大的發展,因為它提供了一個可行的替代專有的數據倉庫(DW)解決方案和關閉數據格式——在那之前統治。
與Hadoop的引入,組織很快就將訪問存儲和處理大量數據的能力,提高計算能力,容錯,數據管理的靈活性,降低成本和DWs相比,和更大的可伸縮性。最終,Hadoop為未來大數據分析的發展鋪平了道路,如Apache的引入火花。
當涉及到Hadoop,可能的用例幾乎是無窮無盡的。
大型組織有更多的客戶數據可以比以往任何時候都。但通常,很難使大量看似無關的數據之間的聯係。當英國零售商瑪莎百貨Hadoop-powered部署Cloudera企業結果,他們多留下了深刻的印象。
Cloudera使用Hadoop-based支持和服務數據的管理和處理。實現雲計算平台後不久,瑪莎發現他們能夠成功地利用他們的數據大大改善了預測分析。Beplay体育安卓版本
這使他們有更高效的倉庫使用和防止缺貨“意想不到”的山峰中需求和獲得巨大的競爭優勢。
Hadoop也許更適合金融部門比其他任何。在早期,主要使用的軟件框架很快掛鉤處理高級算法涉及風險建模。這正是風險管理的類型,可以幫助避免信用互換災難導致了2008年的經濟衰退。
銀行也意識到這同樣的邏輯也適用於風險管理為客戶投資組合。今天,是共同的金融機構實現Hadoop來更好地管理金融客戶的資產的安全性和性能。摩根大通隻是許多行業巨頭之一,使用Hadoop來管理指數越來越多的來自世界各地的客戶數據。
是否國有化和私有化,任何規模的衛生保健提供者處理大量的數據和客戶信息。Hadoop框架允許醫生、護士和護理人員來獲得他們需要的信息,當他們需要它,它也很容易聚合數據,提供可行的見解。這可以適用於公共衛生問題,更好的診斷,治療和改善更多。
學術和研究機構還可以利用一個Hadoop框架來提高他們的努力。例如,遺傳領域的疾病,包括癌症。我們人類基因組繪製出來,總共有近三十億個堿基對。從理論上講,一切治療的疾病現在在我們麵前的麵孔。
但識別複雜的關係,係統(比如Hadoop將需要處理如此大量的信息。
Hadoop可以幫助改善國家和地方安全的有效性,。當談到解決相關犯罪分布在多個地區,Hadoop框架可以簡化執法的過程通過連接兩個看似孤立的事件。通過減少時間連接情況下,機構能夠付諸於行動提醒其他機構和公眾盡快。
在2013年,國家安全局Hadoop (NSA)認為開源軟件是優於昂貴的替代品已經實現。他們現在使用的框架來幫助檢測恐怖主義、網絡犯罪和其他威脅。
Hadoop是一個框架,允許大型數據集的分布在集群的硬件。Hadoop處理同時在多個服務器上並行執行。
客戶提交Hadoop數據和程序。簡而言之,HDFS (Hadoop的核心組件)處理和分布式文件係統的元數據。接下來,Hadoop MapReduce處理和轉換的輸入/輸出數據。最後,紗把跨集群任務。
使用Hadoop,客戶可以更有效地使用商品資源的高可用性和一個內置的故障點檢測。此外,客戶可以快速響應時間與相關業務係統在執行查詢。
總之,Hadoop提供了一個相對簡單的解決方案組織要充分利用大數據。
Hadoop框架本身主要是由Java。其他編程語言包括一些本地代碼用C和命令行shell腳本。但是,Hadoop在許多其他語言編寫的程序可以包括Python或c++。這允許程序員的靈活性與他們最熟悉的工具。
當我們談及,Hadoop為組織創造了一個簡單的解決方案需要管理大數據。但這並不意味著它總是簡單的使用。從上麵的用例中,我們可以學到如何選擇實現Hadoop框架非常靈活。
你的業務分析師、數據科學家,和開發人員。決定使用Hadoop將取決於你的組織及其目標。
Hadoop是大多數組織而不是每個公司應該重新評估他們使用Hadoop的關係。如果您的業務處理大量數據作為其核心流程的一部分,Hadoop提供了一種靈活的、可擴展的和可負擔得起的解決方案,滿足您的需要。從那裏,主要是你和你的團隊的想象力和技術能力。
這裏有一些如何查詢Hadoop的例子:
Apache蜂巢是早期使用Hadoop如何查詢SQL的首選解決方案。這個模塊模擬行為,語法和MySQL的接口編程簡單。這是一個偉大的選擇如果你已經大量使用的Java應用程序,因為它有一個內置的Java API和JDBC驅動程序。蜂巢為開發人員提供了一個快速和簡單的解決方案也是相當有限的軟件,而緩慢而飽受隻讀功能。
這個來自IBM的提供是一種高性能大規模並行處理(MPP)的SQL引擎Hadoop。其查詢解決方案迎合企業的需要在一個穩定和安全的環境。除了訪問HDFS數據外,它還可以拉從RDBMS, NoSQL數據庫,WebHDFS和其他來源的數據。
Hadoop是一個通用名稱,這個詞可能是指下列:
幾個核心組件構成了Hadoop生態係統。
Hadoop分布式文件係統是所有數據存儲開始和結束。這個組件管理大型數據集跨各種結構化和非結構化數據節點。同時,它維護元數據日誌文件的形式。有兩個HDFS的輔助組件:NameNode DataNode。
主守護進程在Hadoop的HDFS是NameNode。這個組件維護文件係統名稱空間和調節說文件的客戶端訪問。它也被稱為主節點和存儲元數據塊的數量和他們的位置。它主要由文件和目錄並執行文件係統執行比如命名,關閉和打開文件。
第二個組件是奴隸DataNode守護進程和命名。這HDFS組件存儲實際數據或執行客戶所要求的讀寫功能塊。這意味著DataNode還負責副本創建、刪除和複製所指示的主NameNode。
DataNode包含兩個係統文件,一個用於數據和一個用於記錄塊的元數據。當應用程序啟動時,握手主人和奴隸之間發生守護進程來驗證名稱空間和軟件版本。任何不匹配會自動記下DataNode。
Hadoop MapReduce的核心處理組件Hadoop生態係統。這個軟件提供了一個簡單的框架應用程序編寫時處理大量的結構化和非結構化數據。這主要是通過跨各個節點的數據並行處理的便利商品硬件。
MapReduce處理來自客戶機的作業調度。用戶所請求的任務分為獨立的任務和流程。接下來,這些MapReduce工作分化成子任務在整個商品服務器集群和節點。
這是通過兩個階段來完成;地圖階段和減少階段。在映射階段,數據集轉化為另一組數據分解成鍵/值對。接下來,減少階段轉換輸出根據程序員通過InputFormat類。
程序員指定MapReduce的兩個主要功能。Map函數是處理數據的業務邏輯。Reduce函數生成中間數據的彙總和總輸出的映射函數,產生最終的輸出。
簡而言之,Hadoop MapReduce的紗線是一個新的和改進版本。然而,這並不是一個完全準確的畫麵。這是因為紗也用於調度和處理序列的執行工作。但紗線是Hadoop的資源管理層運行在每個作業作為一個獨立的Java應用程序的數據。
作為框架的操作係統,紗線可以批處理和數據處理在一個平台。Beplay体育安卓版本遠高於MapReduce的功能,紗允許程序員構建交互和實時流媒體應用程序。
紗允許程序員需要盡可能多的應用程序運行在同一集群。它提供了一個安全、穩定的基礎運營管理和共享係統資源的最大效率和靈活性。
其他受歡迎的包不嚴格核心Hadoop模塊的一部分,但與他們一起經常使用的包括:
興趣的?閱讀更多關於Hadoop生態係統。
根據數據源和組織需求,有三個主要方法使用Hadoop框架分析。
這常常是一個時效和這些企業財務狀況良好選擇必要的現有資源。否則,設置所需的技術設備和IT人員可能過分擴展貨幣和團隊資源。這個選項確實給企業更大的控製數據的安全和隱私。
企業渴望一個更快速的實現,降低前期成本和降低維護要求希望利用基於雲的服務。雲提供商,數據和分析在商品的硬件上運行在雲中存在。這些服務流線的處理大數據在一個合理的價格,但有一定的缺點。
首先,任何在公共網絡黑客等公平遊戲。其次,服務中斷的互聯網和網絡提供商可以磨你的業務係統停止。對於現有框架用戶來說,他們可能需要類似的需要從Hadoop遷移到Lakehow架構。
那些選擇更好的正常運行時間,隱私和安全將會發現所有三件事內部Hadoop提供者。這些供應商提供最好的兩個世界。他們可以簡化這個過程,提供所有設備、軟件和服務。但由於基礎設施是本地的,你獲得的所有好處,大型企業數據中心。
Hadoop收養是成為成功的跨國公司和企業標準。以下是今天使用Hadoop的公司列表:
Hadoop框架本身是一個開源的基於java的應用程序。這意味著,不同於其他大數據的替代品,它是免費的。當然,所需的商品軟件的成本取決於規模。
當涉及到服務實現Hadoop框架就會有一些定價選項:
閱讀更多關於使用Hadoop的挑戰,轉向現代數據平台,在我們Beplay体育安卓版本博客。