跳轉到主要內容
公司博客上

磚Serverless:下一代資源管理為Apache火花

分享這篇文章

作為一個組織的數據量的增長,越來越多的工程師、分析師和數據科學家需要分析這些數據使用工具如Apache火花。今天,IT團隊不斷努力找到一種方法來分配大數據基礎設施,不同用戶之間的預算,優化性能。終端用戶數據科學家和分析師還花大量的時間為最佳性能優化大數據基礎設施,既不是他們的核心專長也不是他們的主要目標數據的派生的見解。

刪除這些用戶操作的複雜性,下一代雲計算是走向serverless計算。產品像BigQuery提供serverless接口為用戶要求零基礎設施管理。但所有這些現有產品隻有地址簡單,無狀態的SQL的用例。

今天,我們興奮的宣布磚Serverless,一個新的倡議提供serverless計算複雜的數據科學和Apache火花工作負載。磚Serverless是第一個產品為Apache提供Serverless API火花,大大簡化和統一數據科學與大數據最終用戶和DevOps的工作負載。

玩這個視頻,請點擊這裏,接受餅幹

具體來說,在磚Serverless,我們著手實現以下目標:

  1. 刪除所有操作複雜性科學大數據和交互數據。
  2. 運營成本降低一個數量級,讓組織最大化資源利用率在共享環境中生成所有的工作負載。
  3. 減少查詢延遲進行交互式分析。
  4. 實現上述可靠性的前提下。

數據+人工智能峰會今天,我們推出了我們的第一個階段的磚Serverless,叫做Serverless池,它允許客戶池對於Serverless工作負載運行在自己的AWS帳戶。beplay体育app下载地址數以百計的用戶可以共享一個存儲池,DevOps可以控製整個工作負載的資源成本在一個地方。在以後的階段,我們還將提供服務serverless工作負載運行外部客戶的AWS環境。

Serverless池是什麼?

磚Serverless池自動管理的雲資源池自動配置和auto-scaled互動引發工作負載。管理員隻需要提供他們想要的最小和最大數量的實例池,對預算控製的目的。終端用戶然後計劃他們的工作負載使用火花api在SQL或Python,磚將自動、高效地運行這些工作負載。

serverless池的三個主要優點是:

  • 自動配置:火花版本部署在serverless池自動優化的交互式SQL和Python的工作負載。
  • Spark-aware彈性:磚自動尺度的計算和serverless本地存儲資源池在Apache火花的改變用戶的資源需求的工作。
  • 可靠的細粒度共享:Serverless池嵌入搶占和故障隔離到火花,使池的資源共享許多用戶在一個細粒度的方式在不損害可靠性。

為什麼Serverless池?

有多個現有的資源管理器為Apache火花,但沒有一個提供高並發性和自動彈性serverless池。現有集群經理,如紗,和雲服務,如EMR,患有下列問題:

  1. 複雜的配置:每個用戶需要配置他們的火花應用程序通過指定其資源需求(如內存大小的容器)。錯誤的配置會導致糟糕的性能。
  2. 低利用率:應用程序通常會使用更少的資源比以往係統中分配,導致資源浪費和更高的成本。重新分配隻是在粗粒度的時間尺度。
  3. 高查詢延遲查詢:用戶在交互數據科學需要他們很快恢複,這樣他們可以計劃下一步探索數據集。如果每個查詢需要幾分鍾的開銷或自旋了一個新的集群提交作業,這些對延遲敏感的用戶會有一個很差的用戶體驗。

磚Serverless池結合彈性和細粒度的資源共享,極大的簡化基礎設施管理管理員和最終用戶:

  1. IT管理員可以輕鬆地管理成本和性能在許多用戶和團隊通過一個設置,無需配置多個火花集群或紗線的工作。
  2. 用戶可以關注他們的查詢,編寫狀態數據處理代碼在協作環境中如筆記本,不用思考的基礎設施。beplay娱乐ios他們隻是連接筆記本或工作serverless池中。

接下來,我們看看詳細serverless池的三個關鍵屬性。

的自動

通常,集群配置一個火花包括以下階段:

  1. IT管理員的任務是配置集群和管理預算。他們看所有可用的使用需求和成本的選擇,包括選擇合適的實例類型,保留情況下,選擇一個現貨報價,等等。
  2. 數據工程師和火花專家接著跳,玩著成百上千的火花配置(堆內存、序列化格式等等)來調整引發的工作性能良好。
  3. 如果集群是用於機器學習的工作負載,數據科學家然後花額外的時間優化集群他們的算法和利用的需求。

Serverless池大大簡化了階段1和消除了第二和第三階段,通過允許管理員創建一個池等參數與關鍵AWS現貨招標。

Spark-Aware彈性

如前所述,預測正確數量的資源集群是為管理員和用戶最困難的任務之一,因為他們不知道使用需求。這導致大量的試驗和錯誤的用戶。與serverless池,用戶可以指定所需的實例和彈性的serverless池的範圍尺度計算和本地存儲基於個人火花工作的資源需求。

自動定量計算:serverless池的計算資源自動定量基於集群中的火花任務排隊。這是不同於粗粒度自動定量發現在傳統的資源管理器。Spark-native縮放方法有助於最佳資源利用率從而大幅降低基礎設施成本。此外,serverless池把這個自動定量與按需和現貨實例來進一步優化成本。閱讀更多的我們的自動定量文檔

自動定量存儲:除了計算和內存,火花需要磁盤空間支持數據震蕩和從內存溢出。有足夠的磁盤空間是至關重要的火花工作沒有任何失敗,和數據工程師和科學家通常難以正確處理這個問題。Serverless池使用邏輯卷管理來解決這個問題。作為工人的本地存儲實例填滿,serverless池自動提供額外的EBS卷的實例和運行引發就業無縫地使用額外的空間。沒有更多的磁盤空間”的失敗!

可靠的細粒度的分享

自從serverless池允許細粒度的多個用戶之間的資源共享,動態負載管理和隔離可預測的性能至關重要。

搶占:當多個用戶共享一個集群,是很常見的一個工作從用戶獨占所有集群資源,從而減緩集群上的所有其他工作。火花公平調度器池可以幫助解決這些問題對一小部分用戶有類似工作負載。集群上隨著用戶數量的增加,然而,它變得越來越有可能大量火花工作將占用所有集群資源。問題可以更加劇了多個數據角色時相同的集群上運行不同的工作負載。例如,運行大數據工程師ETL作業通常會防止數據分析師短缺,交互式查詢。應對這些問題,serverless池將積極搶占引發不堪重負的用戶的任務,確保所有用戶集群得到公平地分享他們的時間。這給每個用戶一個高度互動體驗,同時整體資源成本最小化。

故障隔離:另一個常見的問題,當多個用戶共享一個集群和筆記本是一個用戶交互分析的故障代碼可以崩潰引發司機,降低集群為所有用戶。在這樣的場景中,磚資源管理器提供了沙盒故障隔離驅動過程屬於不同從一個另一個筆記本,以便用戶可以安全地運行命令,否則事故司機而不用擔心影響其他用戶的經驗。

績效評估

我們做了一些基準測試了解serverless池票價當有並發和異構負載。這是設置:許多數據科學家們在集群上運行查詢火花。這些都是短時間運行的互動工作,最多幾分鍾。當我們介紹一個大ETL工作負載集群是否相同?

20個用戶標準集群

標準火花集群,當ETL作業補充說,平均響應時間從5分鍾(紅線)增加到15(橙色線),在最壞的情況下超過40分鍾。

20個用戶Serverless池

serverless池,交互式查詢ETL作業開始時有點慢,但是磚調度器能夠保證性能隔離和限製其影響。ETL作業在後台運行,有效地利用閑置的資源。用戶可以獲得性能優良的工作負載而不必運行第二個集群。

比較與其他係統

我們也更大的性能進行了測試,並發TPC-DS工作負載在三個環境:(1)轉眼間EMR, (2) Apache火花EMR和(3)磚Serverless。

當有5用戶每運行一個TPC-DS並發工作負載集群,Serverless池的平均查詢延遲是一個數量級低於很快。
20個用戶和背景ETL作業在集群上,不同的是更大,比轉眼間快12倍和7 x速度比EMR的火花。

結論

Serverless池是我們的使命,消除所有的第一步操作複雜性涉及大數據。他們所有的猜測的集群管理,設置最小和最大池大小和規模會自動適應負載被放置在這些範圍內。他們還為用戶提供zero-management體驗——隻是從筆記本連接池並開始運行代碼或工作。我們感到興奮,磚Serverless是第一個平台提供所有這些Serverless Apache引發全功率的計算Beplay体育安卓版本功能。

你可以試著磚Serverlessβ形式今天簽署了免費的磚試驗

免費試著磚
看到所有公司博客上的帖子
Baidu
map