跳轉到主要內容
工程的博客

標杆管理大數據的SQL平台在雲中Beplay体育安卓版本

2017年7月12日 工程的博客

分享這篇文章
對於這些基準更深的潛水,看網絡研討會雷諾鑫。

性能通常是一個關鍵因素在選擇大數據平台。Beplay体育安卓版本給定的SQL是大數據分析的通用語言,我們要確保我們提供最高效的SQL的平台在我們Beplay体育安卓版本統一的分析平台Beplay体育安卓版本

在這篇文章中,我們比較磚3.0運行時(包括Apache火花和DBIO加速器模塊)和香草開源Apache火花,轉眼間在雲中使用行業標準TPC-DS v2.4基準。除了雲設置,磚運行時相比,在最近10 tb的規模Cloudera基準在Apache使用本地硬件黑斑羚。在這種情況下,隻有77 104 TPC-DS查詢報告的黑斑羚Cloudera發表的結果。

結果表明,的總結:

  1. 磚3.0運行時優於香草火花在AWS 5 x使用相同的硬件規格。
  2. 磚優於轉眼間8 x。而轉眼間隻能運行62 104查詢,磚跑。
  3. 磚不僅優於本地黑斑羚Cloudera 3 x的查詢選擇的報告,但也受益於S3存儲彈性,相比fixed-physical磁盤上。

複製這個基準測試,你可以得到所有的腳本在這裏

TPC-DS

由第三方委員會TPC-DS是事實上的工業標準基準衡量決策支持解決方案的性能。根據其自己的主頁,它定義了決策支持係統的研究大量數據,給真實的業務問題的答案,執行SQL查詢各種作戰需求和複雜性(如特別、報告、迭代OLAP、數據挖掘),特點是高CPU和IO負載。

這個基準測試包括104查詢,鍛煉很大一部分的SQL 2003標準- 99查詢TPC-DS基準,其中四個與兩個變量(39)14日,23日,24日和“s_max”查詢執行一個完整的掃描和聚合最大的桌子,store_sales。在一個討論早些時候博客,火花SQL是為數不多的幾個開源的SQL引擎能夠運行所有TPC-DS查詢沒有修改。

磚運行時和香草Apache火花

我們進行了這個實驗使用最新的磚運行時的3.0版本,並與火花集群設置在另一個流行的AWS雲數據平台。Beplay体育安卓版本磚運行時還引發了一個IO層(DBIO),使優化訪問雲存儲(在本例中S3)。

雲存儲的最優火花性能不同於火花on-prem HDFS,隨著雲存儲可以引入網絡延遲或文件IO語義不一致——在某些情況下不適合大數據的軟件。但在磚與火花,我們消除。

正如上文所述,火花在磚在總約5 x表現的更好的運行時和4 x更好幾何平均數。接下來,我們解釋基準設置的更多細節。

硬件配置我們使用以下設置在Amazon EC2上:

  • 機器類型:11 r3。超大節點(10 1工人和司機)
  • 虛擬核心CPU核心數:44(22個物理核心)
  • 係統內存:335 GB
  • 本地磁盤空間總洗牌:880 GB(數據存儲為基準周日)t在S3)
  • 網絡性能是描述為“溫和”的亞馬遜

數據集:TPC-DS 1000比例因子,S3。我們選擇這個而不是比例因子10000因為轉眼間,在下一節中相比,有嚴重問題擴大。

查詢重寫:沒有完成的查詢重寫。火花SQL口味都能夠運行所有104查詢。

配置調優:我們使用開箱即用配置運行基準數據磚,和額外的手工調優在AWS集群。我們最初跑這一基準競爭平台上使用其默認配置但發現性能低於我們的預期。Beplay体育安卓版本然後,我們做了一些手工調優匹配配置在磚火花AWS會表現的更好。額外的配置在non-Databricks平台上可以找到Beplay体育安卓版本在這裏在這裏

進一步分析查詢結果,我們也查詢分為三類:

  1. 交互式查詢:這類查詢1分鍾內完成。在這個類別,磚3.0運行時是快3倍。
  2. 報告查詢:這類查詢3分鍾內完成。在這個類別,磚3.0運行時是快4倍。
  3. 深入分析查詢:長時間運行的查詢,可能需要一個小時或更多。在這個類別,磚運行時3.0快5倍。

因為互動查詢被延遲的元數據發現瓶頸,我們觀察到隻有3 x加速,而報道和深度分析查詢優化DBIO受益無窮。DBIO將來的版本也將大幅提高元數據的延遲發現提高交互式查詢更多。

磚運行時vs轉眼間

使用相同的硬件配置,我們還磚與轉眼間運行時的AWS相比,使用相同的供應商建立轉眼間集群。

硬件配置:同上(11 r3。超大節點)

數據集:TPC-DS 1000比例因子,S3

查詢重寫:我們不得不重寫一些查詢很快由於缺少支持分組彙總函數。即使有一些小的重寫,隻有62查詢可以很快完成。其餘係統崩潰或不返回結果。這就解釋了為什麼在轉眼間小於總運行時的總運行時香草火花從一節,轉眼間的總運行時沒有考慮失敗的查詢。

如前所述,使用SQL 104磚完成所有的查詢,和62年轉眼間。比較62查詢很快能夠運行,磚運行時比轉眼間在幾何平均8 x表現的更好。磚運行時比轉眼間快8倍,與豐富的ANSI SQL支持。

Apache黑斑羚On-prem磚在雲中vs

Apache黑斑羚是另一個流行的查詢引擎在大數據領域,主要由使用Cloudera客戶。beplay体育app下载地址Cloudera公布基準數字黑斑羚引擎本身。的最近的基準是兩個月前發布的Cloudera跑隻有77 104查詢。

在這個實驗中,我們問自己:磚運行時如何在雲設置比較物理硬件的黑斑羚的結果嗎?如果我們比較使用開箱即用配置數據磚黑斑羚調諧通過產品背後的工程團隊,和擇優的集合查詢?此外,火花在S3黑斑羚的性能與物理磁盤?本節介紹了這個實驗的結果。

硬件配置:

磚運行時 Cloudera黑斑羚
CPU核心數 AWS個vcpu 144 (288) 280年
內存(GB) 2196年 1792年
本地磁盤(TB) 68年 112年
數據存儲 S3(解耦的存儲和計算) HDFS(本地磁盤)
機器的細節 18雲i3.4xlarge 7 on-prem節點

數據集:磚,TPC-DS 10000比例因子,S3。黑斑羚,HDFS。

查詢重寫:沒有,但選擇的組77查詢Cloudera團隊在TPC-DS排除一些最苛刻的查詢。

配置調優:沒有磚;與開箱即用配置我們跑。未知Cloudera的基準是什麼,因為它沒有報道(查看評論)。

104查詢全部完成在10000年的比例因子19990秒。下麵的圖對比77年的運行時查詢Cloudera的報告:

如果我們把cpu的個數作為歸一化因子,磚運行時,在雲中使用商品硬件,比黑斑羚3 x效率:

磚運行時實現更好的性能在黑斑羚Cloudera公布的數字,在查詢了黑斑羚的工程團隊使用一個集群隻有一半的物理CPU核心。這些數字本身並不突出一個很重要的因素是,磚實驗與數據在S3中,使用分離的存儲和計算,增加彈性和易於管理和本地磁盤相比,在黑斑羚做基準。

在一個早些時候博客比較S3 vs HDFS,我們得出的結論是,S3有更低的總擁有成本,雖然HDFS可能有更好的性能在每個節點的基礎上。這個基準測試的結果表明,我們的優化,可以兩全其美:靈活性和降低TCO的雲,比on-prem性能,和更廣泛的ANSI SQL支持。

結論

這篇文章報道的基準進行比較與其他大磚3.0運行時的數據引擎,包括香草Apache火花,轉眼間在雲端。即使提高配置在AWS的火花,火花磚運行時優於香草火花5 x使用相同的硬件規格。

相比,轉眼間,磚運行時執行8 x更好,雖然能夠運行所有查詢。轉眼間隻能運行62 104查詢,當火花能夠運行104年香草開源版本和修改的磚。

相比另外雲計算的結果,我們有我們的平台最近黑斑羚10 tb Cloudera結果集的規模。Beplay体育安卓版本結果從一個on-prem集群,磚運行時優於本地黑斑羚3 x的查詢選擇報告相同數量的CPU內核。磚運行時測試使用S3雲存儲有額外的彈性比on-prem導致降低TCO。

對於這些基準更深的潛水,看網絡研討會雷諾鑫。

利用最新的性能優化磚3.0運行時,注冊一個磚帳戶

免費試著磚
看到所有工程的博客的帖子
Baidu
map