Apache火花在大規模正式設置一個新記錄排序

通過雷諾鑫

2014年的11月5日在工程的博客

分享這篇文章

一個月前,我們與你共享條目2014灰色競爭,一個第三方基準測量係統如何快速排序100 TB的數據(1萬億條記錄)。今天,我們很高興地宣布我們的條目已經審查基準委員會正式獲得了代托納GraySort比賽!

如果你錯過了我們早些時候博客206年EC2上使用火花機,我們分類在23分鍾100 TB的數據在磁盤上。相比之下,使用Hadoop MapReduce的前世界紀錄2100台機器,花了72分鍾。這意味著Apache火花排序相同的數據快3倍使用10 x更少的機器。所有的排序發生在磁盤(HDFS),不使用引發的內存緩存。這個條目與加州大學聖地亞哥分校的一個研究小組構建高性能的係統,我們共同創造一項新的世界紀錄。

	Hadoop先生記錄	火花記錄	火花 1 PB
數據大小	102.5結核病	100年結核病	1000年結核病
運行時間	72分鍾	23分鍾	234分鍾
#節點	2100年	206年	190年
#核	50400年物理	6592年虛擬化	6080年虛擬化
集群磁盤吞吐量	3150 GB / s (美國東部時間)。	618 GB / s	570 GB / s
排序基準代托納規則	是的	是的	沒有
網絡	專門的數據中心,10 gbps	虛擬化(EC2) 10 gbps的網絡	虛擬化(EC2) 10 gbps的網絡
這種速度	1.42 TB /分鍾	4.27 TB /分鍾	4.27 TB /分鍾
排序率/節點	0.67 GB /分鍾	20.7 GB /分鍾	22.5 GB /分鍾

吉姆的名字命名的灰色,基準工作負載是資源密集型的措施:分類100 TB的數據遵循嚴格的規則產生500 TB的磁盤I / O和200 TB的網絡I / O。來自世界各地的組織經常建立專用的那種機器(有時專業軟件和專用硬件)參加這個基準測試。

贏得這一基準一般,容錯係統引發項目標誌著一個重要的裏程碑。它說明了火花是履行其承諾作為更快和更可擴展為各種規模的數據處理引擎,從GBs TBs PBs。此外,我們和其他人已經驗證的工作,導致火花在過去的幾年裏。

磚開始以來,我們一直在努力把改善可伸縮性、穩定性和性能的火花。這個基準測試建立在我們的一些主要的最近的工作在火花,包括事shuffle (火星- 2045),新的Netty-based運輸模塊(火星- 2468)和外部轉移服務(火星- 3796)。前已經發布在Apache 1.1火花,和後兩個即將到來的Apache火花1.2發行版的一部分。

你可以閱讀我們以前的博客了解更多關於我們贏得進入競爭。也希望未來的博客文章在這些主要的新火花特性。

最後,我們感謝亞倫·戴維森,諾曼·毛雷爾安德魯•王最小值周,EC2和EBS團隊從亞馬遜網絡服務,引發社會對他們的幫助。我們還要感謝基準委員會成員克裏斯·尼伯格Mehul Shah,娜迦Govindaraju的支持。

免費試著磚

開始

看到所有工程的博客的帖子