開源生態係統的新發展:Apache Spark 3.0、Delta Lake和Koalas

下載幻燈片

在這次演講中,我們將重點介紹Spark生態係統中發生的主要努力。特別地,我們將深入研究Spark 3.0中自適應和靜態查詢優化的細節,以使Spark更易於使用和更快地運行。我們還將演示Koalas(一個開源庫,在Spark上提供類似panda的API)中的新功能如何幫助數據科學家更快地從數據中獲得見解。

試著磚
查看更多Spark + AI歐洲峰會2019視頻


«回來
關於邁克爾·阿姆布魯斯特

Michael Armbrust是Apache Spark的提交者和PMC成員,也是Spark SQL的最初創建者。他目前在Databricks領導設計和構建結構化流和Databricks Delta的團隊。他於2013年在加州大學伯克利分校獲得博士學位,並由邁克爾·富蘭克林、大衛·帕特森和阿曼多·福克斯擔任顧問。他的論文專注於構建允許開發人員快速構建可伸縮交互應用程序的係統,並特別定義了規模獨立性的概念。他的興趣廣泛包括分布式係統、大規模結構化存儲和查詢優化。(daisna21-speakers)

布魯克身上
關於Brooke Wenig

Brooke Wenig是機器學習實踐部門的主管。她領導著一個數據科學家團隊,為客戶開發大規模機器學習管道,並教授關於分布式機器學習最佳實踐的課程。beplay体育app下载地址她是Learning Spark第二版的合著者,分布式計算與Spark SQL Coursera課程的聯合講師,以及Data Brew播客的聯合主持人。她獲得加州大學洛杉磯分校計算機科學碩士學位,專注於分布式機器學習。她說一口流利的普通話,喜歡騎自行車。(daisna21-speakers)

關於Burak Yavuz

Burak Yavuz是Databricks的軟件工程師和Apache Spark提交者。他一直在開發結構化流和Delta Lake,以簡化數據工程師的生活。Burak在斯坦福大學獲得管理科學與工程碩士學位,在伊斯坦布爾博加齊大學獲得機械工程學士學位。

Baidu
map