現在在磚:磚的技術預覽版運行時7包括Apache火花3.0的一個預覽

通過陰淮河,Wenchen風扇和小李

2020年5月13日在工程的博客

分享這篇文章

介紹磚運行時7.0 Beta

我們興奮地宣布,Apache火花^TM3.0.0-preview2釋放可用磚作為我們的新磚的一部分運行時7.0 Beta。3.0.0-preview2釋放巨大的高潮來自開源社區提供新功能,性能提升和擴大引發的生態係統的兼容性。使用非常簡單,隻需選擇預覽版本“7.0 Beta”啟動集群。

即將發布的Apache 3.0建立在許多創新的火花引發2.0,帶來新想法以及持續發展的長期項目。我們的願景一直統一數據和人工智能,我們繼續投資在火花足以解決棘手的大數據問題,但也容易使用,這樣你就能夠。這不僅僅是對於數據工程師和科學家,但也對那些火花SQL SQL工作負載。超過3000 Jira票解決這個新版本的火花,雖然我們無法涵蓋所有這些新功能深度在這篇文章中,我們想強調的一些物品在此版本中。

自適應的SQL查詢優化

火花SQL是火花的引擎。催化劑優化器,火花應用程序建立在DataFrame、數據集、SQL、結構化流,MLlib和其他第三方庫都是優化。生成查詢計劃好,查詢優化器需要了解的數據特征。在大多數情況下,數據統計通常缺席,尤其是當統計信息收集是更昂貴的比數據處理本身。即使統計,統計數據有可能過時了。因為火花的存儲和計算分離,數據到來的特點是不可預測的。所有這些原因,運行時自適應性變得更比傳統係統引發的關鍵。這個版本引入了一個新的自適應查詢執行(AQE)框架和新的運行時過濾動態分區修剪(民進黨):

AQE框架由三個主要特點:1)動態合並改組分區,2)動態切換連接策略和3)動態優化傾斜連接。基於1 tb TPC-DS基準沒有統計,火花3.0可以產生8 x加速q77, 2 x加速q5超過1.1倍加速,另一個26的查詢。AQE可以啟用SQL配置設置spark.sql.adaptive.enabled來真正的(默認假在火花3.0)。

民進黨當優化器在編譯時無法確定它可以跳過的分區。這在星型模式並不少見,它由一個或多個事實表的引用任何數量的維度表。在這樣的連接操作,我們可以刪除分區連接從一個事實表讀取通過識別那些由於過濾維度表的分區。TPC-DS基準,60 102查詢之間表現出顯著的加速2 x和18 x。

豐富的api和功能

啟用新的用例和簡化應用程序開發,這個版本交付新功能和增強現有功能。

加強大熊貓udf。熊貓udf最初引發2.3中引入了擴展的用戶定義函數PySpark和熊貓api集成到PySpark應用程序。然而,現有的接口添加更多的UDF類型時很難理解。這個版本引入了新的熊貓UDF界麵與python類型的提示。這個版本添加了兩個新的熊貓UDF類型,迭代器係列的迭代器係列和迭代器的多個係列的迭代器係列,三個新的pandas-function api,分組的地圖,地圖和co-grouped地圖。
一套完整的加入提示。雖然我們保證編譯器更聰明,不能保證編譯器可以使每種情況下的最優決策。加入基於統計和啟發式算法選擇。當編譯器無法做出最好的選擇,用戶仍然可以使用連接提示影響優化器選擇一個更好的計劃。這個版本擴展了現有的加入提示通過添加新的提示:SHUFFLE_MERGE, SHUFFLE_HASH SHUFFLE_REPLICATE_NL。
新的內建函數:有32個新的內置函數和高階函數添加在Scala api。在這些內置函數中,一組映射為特定內置函數(transform_key、transform_value map_entries、map_filter map_zip_with]添加簡化處理的數據類型映射。

增強監視功能

這個版本包含了許多改進,使監測更全麵、穩定。有效增強沒有高對性能的影響。

新的UI結構化流:結構化流最初是在火花2.0中引入的。這個版本添加了專門檢查這些流工作的新火花UI。這個新的UI提供兩套統計:1)流聚合信息查詢工作完成,2)流的詳細統計信息查詢,包括輸入率,過程,輸入行,批處理時間、運行時間等。

增強解釋命令:閱讀理解和調優查詢計劃是至關重要的。現有的解決方案看起來淩亂和每個操作符的字符串表示可以非常廣泛,甚至截斷。這個版本增強它與一個新的格式化的模式,還提供了一個功能轉儲文件的計劃。

觀察指標:持續監控數據質量的變化是一個非常理想的功能來管理一個數據管道。這個版本引入了這種能力對批處理和流媒體的應用程序。可觀測的指標是名為任意聚合函數,可以定義在一個查詢(dataframe)。一旦執行dataframe達到完成點(例如,完成批量查詢或到流媒體時代),命名事件包含的指標數據處理自上次完成點。

試著火花3.0預覽版在運行時7.0 Beta

即將到來的Apache火花3.0版本帶來了很多新特性功能,性能改進和擴展兼容性引發的生態係統。除了核心功能和性能改進的數據工程,數據科學、數據分析、機器學習和工作負載在Apache火花,這些改進也提供一個顯著提高SQL分析師火花的經驗,包括報告的工作和交互式查詢。再一次,我們感謝所有引發社會的貢獻使這一切成為可能。

這篇文章隻總結了這個版本中的一些重要特性。請繼續關注我們將發布一係列的技術博客更深入地解釋其中的一些特性。

在我們了解更多關於火花3.0預覽網絡研討會。如果你想試著即將到來的Apache火花3.0預覽版在磚7.0運行時,注冊一個免費試用帳戶。

免費試著磚

開始

看到所有工程的博客的帖子