跳轉到主要內容

研究

Apache火花:一個統一的大數據處理引擎

作者:帕特裏克•溫德爾·馬泰Zaharia雷諾美國新,如來佛Das,邁克爾•Armbrust Ankur戴夫,Xiangrui孟,Josh羅森Shivaram Venkataraman,邁克爾·j·富蘭克林,阿裏•Ghodsi約瑟夫·岡薩雷斯斯科特Shenker離子斯托伊卡

文摘

數據量的增長在工業和研究帶來了巨大的機遇,以及巨大的計算挑戰。隨著數據大小超過單個機器的功能,用戶需要新係統規模計算多個節點。因此,有爆炸的新集群的編程模型針對不同的計算工作量。起初,這些模型相對專業,新車型開發新的工作負載;例如,MapReduce4支持批處理,但穀歌也上鑽了小孔為交互式SQL查詢和Prege1迭代圖算法。在開源Apache Hadoop堆棧,係統就像風暴和黑斑羚也專業。即使在關係數據庫世界,趨勢是擺脫“一刀切”係統。不幸的是,大多數大數據應用程序需要結合許多不同的處理類型。“大數據”的本質在於它是不同的和混亂;典型的管道需要MapReduce-like代碼數據加載,sql的查詢,和迭代機器學習。 Specialized engines can thus create both complexity and inefficiency; users must stitch together disparate systems, and some applications simply cannot be expressed efficiently in any engine.

Baidu
map