介紹Apache火花2.1

通過雷諾鑫

2016年12月29日在工程的博客

分享這篇文章

火花峰會將在波士頓舉行2月7號到9號,2017。檢查排滿日程和得到你的票之前賣出去!

今天我們很高興地宣布的可用性Apache 2.1.0的火花。

這個版本是可衡量的進展在生產準備的結構化流,添加了支持事件時間水印和Apache卡夫卡0.10支持。此外,釋放更多的關注可用性、穩定性、和細化,解決1200多票,比先前的火花版本。

本博客文章討論的一些高層變化來幫助您瀏覽1200 +改進和錯誤修複:

生產準備的結構化流
擴展SQL功能
新的分布式機器學習算法在R

結構化流

在火花2.0中引入的,結構化流是一個高級API構建連續應用程序。主要目標是使其更容易構建端到端的流媒體應用,這與存儲、集成服務係統和批處理作業一致和容錯。

事件時間水印:這種變化讓應用程序提示係統當事件被認為是“太遲了”,允許係統內部狀態跟蹤事件後期綁定。
支持基於文件的格式和所有文件的特點:通過這些改進,結構化流可以讀取和寫入所有文件的格式,例如JSON,文本,Avro、CSV。此外,所有基於文件的features-e.g。分區文件和bucketing-are支持所有格式。
Apache 0.10卡夫卡:這對卡夫卡0.10增加了本地支持,包括手動作業開始偏移量和速度限製。

流媒體應用程序24/7連續運行,把嚴格要求底層係統的可見性和可管理性。為此,火花2.1增加了以下功能:

GUID:添加一個GUID,可以用來識別流在重啟時查詢。
向前兼容和人類可讀的檢查點記錄:現在一個穩定的JSON格式用於所有檢查點日誌,它允許用戶升級流查詢從2.1火花引發的未來版本。此外,日誌格式是由人設計的,因此它可以檢查容易,獲得可見性的運行係統。
改善報告的查詢狀態:查詢狀態API已被更新以包含更多的信息基於我們自己的生產經驗,為查詢現狀以及曆史的進步。

在磚,我們虔誠地相信自己。使用發布候選版本2.1火花,我們移植的一些內部數據管道以及與我們的一些客戶港口生產管道使用結構化流。beplay体育app下载地址在未來幾周,我們將發布一係列的博文結構化流的各個方麵以及我們的經驗。請繼續關注更多的深潛水。

SQL和核心api

火花2.0版本以來,火花現在最功能豐富和遵從標準的SQL查詢引擎之一的大數據空間。它可以連接到不同的數據源並執行sql - 2003等特性集解析函數和子查詢。火花2.1增加了一些SQL功能:

表值函數:火花2.1引入了表值函數的概念,或時變濾波,一個函數,返回一個關係,或一組行。第一個內置的表值函數是“範圍”,返回一係列的TVF行。作為一個例子,“SELECT count(*)從範圍(1000)”將返回1000。
增強分區列推理:添加支持推斷日期、時間戳和十進製類型分區列。
增強的內聯表:而引發2.0添加支持內聯表、火花2.1增強內聯表來支持使用任何指定值也可折疊的表情和自動強製類型。作為一個例子,“SELECT * FROM值(“一”),(1 + 1,“兩”)“選擇從表2行。
零排序:用戶現在可以指定如何訂單取消,如取消去年在order BY子句中第一或null。
二進製文本:X ' 1 c7 '意味著一個二進製0 x1c7文字(字節數組)。
-:添加支持-集操作,這相當於除了截然不同。
to_json和from_json功能:在火花自動推斷類型JSON數據集。我們也看到很多數據集的一個或兩個字符串列是JSON編碼。兩個新功能使用JSON列。
交叉連接提示:在處理大量數據時,一個交叉連接可能會非常昂貴,用戶經常不想實際執行交叉連接。火花2.1開箱即用的禁用交叉連接支持,除非用戶明確問題查詢“交叉連接”語法。也就是說,火花2.1將拒絕“SELECT * FROM a加入”,但允許“SELECT * FROM a交叉連接。“這樣火花防止用戶搬起石頭砸自己的拍攝。禁用此行為,改變“spark.sql.crossJoin。啟用”到“真正的”。

火花2.1還增加了一些核心數據集/ DataFrame API的改進,主要是在類型的API:

KeyValueGroupedDataset.mapValues:用戶現在可以在KeyValueGroupedDataset映射的值,無需修改密鑰。
部分KeyValueGroupedDataset.reduceGroups聚合:reduceGroups現在支持部分聚合來減少慢吞吞地在網絡上的數據量。
java.util.Map編碼器:java.util。地圖類型可以自動推斷出火花地圖類型。

MLlib和SparkR

2.1最後一個主要的變化引發關注先進的分析。添加了以下新算法MLlib GraphX:

位置敏感哈希
多級邏輯回歸
個性化網頁排名

火花2.1還增加了支持以下SparkR分布式算法:

肌萎縮性側索硬化症
等張回歸
多層感知器分類器
隨機森林
高斯混合模型
喬治。
多級邏輯回歸
梯度增加了樹木

通過添加這些算法,SparkR已成為分布式機器學習最全麵的圖書館在R。

這篇文章隻涵蓋在此版本的一些主要特性。你可以去官方發布說明看到變化的完整列表。

我們將發布更多細節在未來幾周這些新特性。請繼續關注磚的博客來了解更多關於火花2.1。如果你想嚐試這些新特性,你已經可以使用火花2.1磚,與老版本的火花。注冊一個免費試用帳戶在這裏。

免費試著磚

開始

看到所有工程的博客的帖子