Apache火花MapReduce (SIMR)
2014年1月1日 在工程的博客
ApacheHadoop集成一直是Apache火花和的一個關鍵目標紗用戶一直能夠運行火花在紗。然而,到目前為止,它一直比較努力在Hadoop上運行的火花MapReducev1集群,即集群沒有紗安裝。通常,用戶必須獲得許可安裝火花/ Scala的某些子集機器上,這一過程可能耗時。輸入在MapReduce SIMR(火花)已經與發布Apache火花0.8.1。
SIMR允許任何人訪問一個Hadoop MapReduce v1集群運行引發的。用戶可以直接運行引發的Hadoop MapReduce v1沒有任何管理權限,沒有火花或Scala安裝在任何節點。唯一的要求是HDFS訪問和MapReduce v1。SIMR是開源的Apache許可和由磚和加州大學伯克利分校的聯合開發AMPLab。
基本的想法是,用戶可以下載SIMR包(3個文件)相匹配Hadoop集群並立即開始使用火花。SIMR包括互動引發殼,並允許用戶使用shell支持集群的計算能力。這是一個簡單的/ simr——殼
:
運行一個火花程序隻需要捆綁它及其依賴關係通過SIMR塞在一個瓶子和啟動工作。SIMR使用下麵的命令行語法運行作業:
。/ simr jar_file main_class參數
SIMR簡單地啟動一個MapReduce工作所需的的地圖名額,並確保火花/ Scala和你的工作被運往這些節點。然後指定一個映射器作為主人和火花司機裏麵運行。在其餘的映射器發射火花執行人將執行任務代表司機。瞧,你的火花的工作是運行在MapReduce的集群。
SIMR允許用戶與驅動程序交互。例如,用戶可以輸入到火花殼牌和交互式地看到它的輸出。這樣的工作方式是,SIMR中繼服務器運行在主映射器和繼電器客戶機機器上,SIMR推出。任何來自客戶機的輸入和輸出之間來回傳遞給驅動程序的客戶端和主映射器。
所有這些工作,SIMR使得大量使用HDFS。主mapper當選領導人選舉通過編寫HDFS和挑選HDFS的映射器,第一次寫。同樣,內部的執行人推出其他URL映射器發現司機的從HDFS通過閱讀從一個特定的文件。因此,SIMR使用MapReduce和HDFS集群管理器。
SIMR並不打算用於生產模式,而是讓用戶瀏覽和使用火花在適當的資源管理器運行之前,如紗,便,或獨立模式。MapReduce 2(紗)當然可以使用現有的用戶火花在紗解決方案,或探索其他火花部署選項。
我們希望SIMR將讓用戶嚐試火花沒有任何沉重的操作負擔。朝著這個目標,我們有預構建的幾個不同版本的Hadoop的SIMR二進製文件。請繼續,試一試,讓我們知道如果你有任何的反饋。
SIMR資源: