宣布磚5.5運行時和運行時的5.5機器學習
磚是高興地宣布釋放磚5.5運行時。這個版本包括Apache火花2.4.3以及幾個重要的改進和錯誤修正如上所述的最新版本說明(Azure|AWS]。我們建議所有用戶升級到利用這一新的運行時版本。這篇文章簡要的概述一些新的高價值功能,提高性能,兼容性、可管理性和簡化機器學習在磚上。
- 更快的集群啟動實例池——公共預覽
- 轉眼間和亞馬遜雅典娜與三角洲湖——公共預覽AWS的兼容性
- AWS膠磚Metastore——通常可用
- DBFS保險絲v2 -私人預覽
- 秘密API R筆記本
- 計劃放棄Python 6.0在磚2支持運行時
- 增強磚運行時機器學習
更快的集群啟動與實例池公共預覽
在磚5.5運行時我們預覽功能叫做實例池,從而大幅度減少所花費的時間推出一個磚集群。今天,推出一個新的集群需要獲取虛擬機從雲提供商,這可能需要幾分鍾。通過實例池,您可以阻擋一組虛擬機,這樣他們就可以被用來快速推出新的集群。你隻支付雲提供商虛擬機不使用時的基礎設施成本在磚集群中,池可以縮減為零情況下,避免成本完全沒有工作的時候。
轉眼間和亞馬遜與三角洲湖——雅典娜兼容性在AWS公共預覽
磚5.5運行時,你可以從轉眼間三角洲湖表用於查詢和亞馬遜雅典娜。這些表可以查詢就像表中存儲的數據格式像拚花。這個特性是使用manifest文件實現的。當一個外部表中定義的蜂巢metastore使用manifest文件,轉眼間和亞馬遜雅典娜使用中的文件列表清單而不是找到文件目錄清單。
AWS膠磚Metastore -一般可用
我們已經與Amazon Web服務將AWS膠磚。磚運行時可以使用AWS膠作為蜂巢metastore替代。為進一步的信息,請參閱使用AWS膠數據目錄的Metastore磚運行時。
DBFS保險絲v2 -私人預覽
磚文件係統(DBFS)是一個抽象層之上的雲存儲特性的底層雲存儲提供商。現有DBFS FUSE客戶機允許進程訪問DBFS使用本地文件係統api。然而,它的設計主要是為了方便,而不是性能。我們介紹了高性能融合存儲位置文件:/ dbfs /毫升
Azure的磚5.3運行時和AWS的磚5.4運行時。DBFS保險絲v2擴展了改進的性能dbfs: /毫升
所有DBFS地點包括坐騎。私人預覽功能;嚐試接觸磚的支持。
秘密API R筆記本
磚秘密的API (Azure|AWS)讓你注入秘密的筆記本沒有硬編碼。磚5.5運行時,這個API可以在R筆記本除了現有的Scala支持Python和筆記本。您可以使用dbutils.secrets.get
函數獲取機密。秘密是修訂之前印刷筆記本電池。
計劃放棄Python 6.0在磚2支持運行時
Python 2的生活即將結束2020年。許多流行的項目宣布他們將停止支持Python 2在2020年或之前,包括最近的一次公告3.0火花。我們認為客戶基礎和計劃放棄Python 2支持從磚開始運行時6.0,將在2019年晚些時候發布。
磚6.0運行時,新版本將隻支持Python 3。磚運行時的4。x和5。x將繼續支持Python 2和3。此外,我們計劃提供長期支持(LTS)去年發布的磚運行時的5.倍。您可以繼續運行Python 2代碼LTS磚運行時的5.倍。我們將很快宣布磚運行時的5。LTS x。
增強磚運行時機器學習
主要包升級
磚5.5運行時機器學習的,我們取得了重大升級包包括:
- 添加MLflow 1.0Python包
- Tensorflow升級1.12.0 1.13.1
- PyTorch升級0.4.1 1.1.0
- scikit-learn升級0.19.1 0.20.3
單節點multi-GPU HorovodRunner操作
我們使HorovodRunner利用multi-GPU司機才集群。之前,使用多個gpu, HorovodRunner用戶必須自旋向上一個司機和至少一個工人。與這種變化,客戶現在可以分發訓練在一beplay体育app下载地址個節點(即multi-GPU節點),從而更有效地利用計算資源。毫升HorovodRunner隻能在磚運行時。
速度模型與改進的二進製文件數據源推理管道和標量迭代器熊貓UDF公共預覽
機器學習的任務,特別是在圖像和視頻領域,經常需要使用大量的文件。在磚運行時的5.4中,我們提供二進製文件數據源來幫助ETL任意文件如圖像到火花表中。在磚運行時的5.5中,我們添加了一個選項,recursiveFileLookup
,加載文件遞歸嵌套輸入目錄。看到二進製文件數據源(Azure|AWS]。
二進製文件數據源使您能夠運行模型並行推理任務從火花表使用一個標量熊貓UDF。然而,您可能需要初始化模型每批記錄,它介紹了開銷。在磚5.5運行時,我們補丁一個新的熊貓UDF類型被稱為“標量迭代器”從Apache火花的主人。通過它你可以隻初始化一次模型和應用模型對許多輸入批次,從而導致好幾次加速ResNet50等模型。看到標量迭代器udf (Azure|AWS]。