reynolds是Apache Spark PMC成員,也是該項目的主要貢獻者。他發起並領導了DataFrames和Project Tungsten等項目。他也是Databricks的聯合創始人和首席架構師。
追求人工智能是當今數據領域的最大優先事項之一。周四上午的主題演講將由Databricks聯合創始人兼首席執行官Ali Ghodsi主持,內容包括數據科學、機器學習、MLOps等在開源和Databricks Lakehouse平台方麵的進展。Beplay体育安卓版本
來自麥當勞和微軟的數據領袖,以及科學家、工程師、喜劇演員和作家、傳奇人物比爾·奈(Bill Nye)也將加入我們的行列。
參加周三上午的主題演講,聆聽Databricks的聯合創始人和流行項目Apache Spark、Delta Lake和MLflow的原創創造者關於開源社區如何應對數據領域的最大挑戰。
敬請期待,它們將揭示數據工程和數據分析領域的一些最新創新,以簡化和擴展您的工作。
2020年11月17日下午04:00
雷諾鑫
Databricks聯合創始人兼首席架構師
在這個由Apache Spark和PMC成員的頂級貢獻者Reynold Xin發表的主題演講中,我們將回顧項目的狀態,並強調在10周年發布會上以及以後的主要社區發展。Reynold將回顧一下最近發布的Spark 3.0是如何專注於讓它更容易使用、更快、更符合ANSI標準的。由於Python代表了近70%的筆記本命令,他將專注於Project Zen的開發——社區努力使Spark更加Python化。這包括在開發工具、API設計、錯誤處理等方麵的改進,以提高數據科學家和工程師使用數據的效率。
Caryl Yuhas
高級經理,現場工程,Databricks
阿裏Ghodsi
聯合創始人兼首席執行官
Apache Spark的原始創造者,Databricks
數據倉庫在決策支持和商業智能應用方麵有著悠久的曆史。但是,數據倉庫並不適合處理現代企業中常見的非結構化、半結構化和流數據。這導致組織在大約十年前建立原始數據的數據湖。但是,它們也缺乏重要的能力。對更好解決方案的需求催生了湖屋架構,它實現了與數據倉庫中類似的數據結構和數據管理功能,直接在數據湖使用的低成本存儲上實現。
Databricks首席執行官Ali Ghodsi的主題演講解釋了開源三角洲湖項目如何讓行業實現湖屋建築的全部潛力。此外,阿裏還將討論新發布的SQL分析服務,該服務允許用戶在他們的數據湖上運行傳統的分析,而不是將數據轉移到數據倉庫,而不犧牲性能、安全和質量。這個服務完成了lakehouse架構的願景,允許數據湖成為所有數據工作負載的單一真實來源。
弗朗索瓦Ajenstat
首席產品官,Tableau Software
布魯克身上,
機器學習實踐主管,Databricks
雷諾鑫
Databricks聯合創始人兼首席架構師
在這次的主題演講中,Reynold Xin, Databricks的聯合創始人和首席架構師,將探討SQL分析如何為數據湖的分析工作負載帶來一個新的性能水平。傳統上,數據湖很難進行分析,因為它們很難在高用戶並發性下提供低延遲的快速查詢性能。Reynold將從技術上深入探討Databricks是如何應對這些挑戰的。首先,Delta Engine, Databricks的多態向量化執行引擎,提供極快的單查詢吞吐量。其次,SQL Analytics中新的自動伸縮SQL優化集群可以輕鬆地將計算能力與用戶負載匹配起來。第三,新的SQL Analytics Endpoints中的優化將獲得查詢結果所需的時間減少了至多6倍。總之,SQL Analytics能夠為用戶的分析工作負載提供數據湖經濟的數據倉庫性能。
阿姆斯特丹自由大學教授
Phinean伍德沃德
聯合利華架構、信息與分析主管
在這次演講中,我們將討論Lakehouse架構如何成為聯合利華信息管理基礎設施的關鍵部分,以限製傳統企業數據豎井,並支持對上遊和下遊數據的敏捷訪問,從而更快地做出決策。因此,IT正在幫助聯合利華在許多業務領域提供更高質量的預測,從而在整個公司建立對人工智能的信任。
馬爾科姆·格拉德威爾
暢銷書作家,記者,播客主持人
想象一下,如果我們能把政治和自我放在一邊,用數據來應對Covid-19大流行會是什麼樣子。獲獎作家兼記者Malcolm Gladwell討論了我們可以從當前危機中學到的教訓,以及數據和數據團隊如何在解決世界上最棘手的問題——包括未來的大流行疫情——方麵發揮關鍵作用。他還揭示了數據團隊在他每天的工作中扮演的重要角色。
阿裏Ghodsi
Ali Ghodsi - Lakehouse介紹,Delta Lake (Databricks) - 46:40
Matei Zaharia - Spark 3.0, Koalas 1.0 (Databricks) - 17:03
Brooke Wenig - DEMO:考拉1.0,Spark 3.0(數據ricks) - 35:46
新雷諾-台達發動機介紹(Databricks) - 1:01:50
Arik Fraimovich - Redash概述和演示(數據ricks) - 1:27:25
Vish Subramanian -釀造數據的規模(星巴克)- 1:39:50
實現數據湖屋願景
阿裏Ghodsi
數據倉庫在決策支持和商業智能應用方麵有著悠久的曆史。但是,數據倉庫並不適合處理現代企業中常見的非結構化、半結構化和流數據。這導致組織在大約十年前建立原始數據的數據湖。但是,它們也缺乏重要的能力。對更好解決方案的需求催生了數據湖屋,它直接在用於數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。
Databricks首席執行官Ali Ghodsi的主題演講解釋了為什麼開源Delta Lake項目使行業更接近於實現數據湖房的全部潛力,包括Databricks統一數據分析平台內的新功能,以顯著加快性能。Beplay体育安卓版本此外,阿裏還將宣布新的開源功能,以協同運行針對數據湖的SQL查詢,構建實時儀表板,並在重要變化時發出警報,使所有數據團隊更容易beplay娱乐ios分析和理解他們的數據。
Apache Spark 3.0簡介:
回顧過去十年,展望未來十年。
Matei Zaharia和Brooke Wenig
在Matei Zaharia (Apache Spark的創始人)的主題演講中,我們將重點介紹Apache Spark 3.0發布後的主要社區開發,使Spark更容易使用,更快,並與更多的數據源和運行時環境兼容。Apache Spark 3.0延續了項目的最初目標,通過對SQL和Python api的重大改進,以及自動調優和優化特性來最小化手動配置,從而使數據處理更易於訪問。今年也是Spark最初開源發布的10周年紀念日,我們將回顧這個項目及其用戶基礎是如何增長的,以及圍繞Spark的生態係統(如考拉、Delta Lake和可視化工具)是如何發展的,使大規模數據處理變得更簡單、更強大。
Delta Engine:用於Delta Lake的高性能查詢引擎
雷諾鑫
星巴克如何實現其“企業數據使命”,使數據和ML規模化,並提供世界級的客戶體驗
Vish薩勃拉曼尼亞
星巴克確保我們所做的一切都是透過人性的鏡頭——從我們對世界上最高品質咖啡的承諾,到我們與顧客和社區打交道的方式,以負責任的方式開展業務。beplay体育app下载地址確保這些世界級客戶體驗的一個關鍵方麵是數據。本次演講強調了星巴克的企業數據分析任務,即幫助在巨大規模的數據支持下做出決策。這包括使用受治理的流程以拍字節規模處理數據、以業務速度部署平台以及在整個企業中啟用ML。Beplay体育安卓版本這一環節將詳細介紹星巴克如何建立世界級的企業數據平台來驅動世界級的客戶體驗。Beplay体育安卓版本
2019 Spark + AI峰會主題演講:Reynold Xin, Databricks, Brooke Wenig, Databricks
大數據和AI緊密相連:最好的AI應用需要大量不斷更新的訓練數據來構建最先進的模型,AI一直是大數據和Apache Spark最令人興奮的應用之一。越來越多的Spark用戶希望將Spark與用於最先進培訓的分布式深度學習和機器學習框架集成在一起。這個演講介紹了一個新的項目,它大大提高了Spark上的分布式深度學習和機器學習框架的性能和故障恢複。