Matei Zaharia是斯坦福大學計算機科學助理教授和Databricks首席技術專家。2009年,他在加州大學伯克利分校讀博士期間開始了Apache Spark項目,並在數據中心係統方麵有廣泛的工作經驗,參與啟動了Apache Mesos項目,並作為Apache Hadoop的提交者做出了貢獻。今天,Matei科技在Databricks領導MLflow的開發工作,以及平台的其他方麵。Beplay体育安卓版本Matei的研究工作獲得了2014年ACM博士論文獎計算機科學最佳博士論文獎、美國國家科學基金會職業獎和美國總統科學家和工程師早期職業獎(PECASE)的認可。
對人工智能的追求是當今數據領域最重要的優先事項之一。周四上午的主題演講將由Databricks聯合創始人兼首席執行官Ali Ghodsi主持,內容包括數據科學、機器學習、MLOps等開源和Databricks Lakehouse平台的進展。Beplay体育安卓版本
我們還將邀請到來自麥當勞和微軟的數據領導者,以及科學家、工程師、喜劇演員和作家的傳奇人物比爾·奈。
參加周三上午的主題演講,聆聽Apache Spark、Delta Lake和MLflow等熱門項目的Databricks聯合創始人和原創創作者講述開源社區如何應對數據領域的最大挑戰。
請繼續關注他們在數據工程和數據分析方麵的一些最新創新,以簡化和擴展您的工作。
數據共享在數字經濟中變得非常重要,因為企業希望與客戶、合作夥伴和供應商輕鬆安全地交換數據,但到目前為止,數據共享解決方案一直綁定在單個供應商或商業產品上。beplay体育app下载地址今天,Databricks發布了業界首個數據共享開放協議“Delta Sharing”,使數據與其他組織共享變得簡單,無論數據位於何處。加入Databricks聯合創始人兼首席技術專家Matei Zaharia,以及Databricks工程師兼產品經理Michael Armbrust和Todd greenstein參加Delta Sharing的“問我任何問題”會議。無論您是想深入研究技術,還是想更好地理解場景,這都是您可以提出問題的環節!
(daisna21-sessions-od)
太平洋時間2020年11月18日下午04:00
馬泰Zaharia
計算機科學助理教授,Apache Spark和MLflow的原始創造者,Databricks
部署和操作機器學習應用程序具有挑戰性,因為它們高度依賴輸入數據,並且可能以複雜的方式失敗。數據格式的訓練/推斷差異、數據傾斜和錯誤配置的軟件環境等問題很容易潛入生產應用程序並影響其質量。為了解決這些類型的問題,組織正在采用ML平台軟件和專門用於管理機器學習應用程序的MLOps實踐。Beplay体育安卓版本
在這次演講中,我將介紹MLflow中為生產機器學習添加的一些最新功能,MLflow是Databricks在2018年啟動的流行開源機器學習平台。Beplay体育安卓版本這些包括使用模型注冊表對模型管理和審查的內置支持,用於自動持續集成和交付(CI/CD)的api,用於捕捉模型預期數據格式差異的模型模式,以及與模型解釋工具的集成。我還將討論開源MLflow社區中發生的其他工作,包括與PyTorch的深度集成及其日益增長的模型生產工具生態係統。
得Uhlenhuth
高級產品經理,機器學習,數據
林巧
Facebook PyTorch的工程總監
Facebook AI團隊的工程總監Lin Qiao談到了將機器學習大規模應用到生產中,包括PyTorch與MLflow的集成。她談到了PyTorch的指導原則,以及從2016年最初開發到現在設定的目標,重點是生態係統的兼容性。
Lin回顧了PyTorch生產生態係統,並討論了MLflow和PyTorch是如何在跟蹤、模型和模型服務方麵進行集成的。
克萊門斯Mewald
Databricks數據科學和機器學習產品管理總監
數據驅動的洞察和決策在任何公司的戰略中都是至關重要的,以跟上當今的快速變化步伐並保持相關性,這已經不再是一個秘密。雖然我們認為這是理所當然的,但我們仍然處於使數據團隊實現他們的承諾的非常早期的階段。其中一個原因是,我們還沒有為這個職業配備他們應得的現代工具包。
現有的解決方案給數據團隊留下了不可能的權衡。讓數據科學家在他們的筆記本電腦上自由使用任何開源工具,並不能為生產和治理提供一條清晰的道路。簡單地在雲中托管這些相同的工具可能會解決一些數據隱私和安全問題,但不會提高生產力和協作。另一方麵,大多數健壯的和可擴展的生產環境會減慢數據科學家的速度,從而阻礙創新和實驗。
在這次演講中,我們將介紹Databricks上的下一代數據科學工作空間的更新,該工作空間最初是在2020年Spark + AI峰會上公布的。具體來說,我們將介紹添加到Databricks筆記本和基於git的Databricks項目中的新功能。到目前為止,業界一直認為協作筆記本電腦隻是用於實驗,而不是用於生產。beplay娱乐ios我們的方法解決了這些挑戰,並首次為數據團隊提供了一個單一的平台,可以快速而自信地從實驗轉向生產。Beplay体育安卓版本
在這次演講中,我們將推出下一代Databricks數據科學工作空間:為現代數據團隊提供開放和統一的體驗,專門用於解決這些困難的權衡。我們將介紹利用您所熟悉的開源工具的新功能,為您提供類似筆記本電腦的體驗,提供實驗的靈活性和創建可靠且可重複的生產解決方案的健壯性。
史蒂芬施瓦茨
生產計劃:智能數據處理經理(奔馳運營),戴姆勒
塞巴斯蒂安Findeisen
戴姆勒數據科學家
當我們想到豪華車時,首先想到的往往是最終產品——時尚的設計,它的速度,等等。但我們常常忽略了汽車從裝配線上下線之前所付出的巨大努力。在這次演講中,戴姆勒將向我們介紹數據和機器學習如何在推動汽車生產自動化方麵發揮關鍵作用,利用mlop和MLflow等工具來自動化許多複雜的流程,並提供提高生產效率的見解。
Rohan庫馬爾
微軟Azure數據公司副總裁
負責任的ML是目前人工智能中最受關注的領域。隨著ML的重要性日益增加,對我們來說,開展合乎道德的AI實踐並確保我們創建的模型達到包容性和透明度的最高標準就變得更加重要。加入Rohan Kumar,他將講述微軟如何將前沿研究帶到客戶手中,使他們對自己的模型更負責任,並對人工智能的使用更負責任。beplay体育app下载地址對於人工智能社區來說,這是一份公開的邀請,邀請大家合作並為塑造負責任的機器學習的未來做出貢獻。本次主題演講是全球峰會的再一次演講。
莎拉的鳥
微軟Azure AI首席項目經理
Mae Jemison的主題演講
世界上第一位進入太空的有色人種女性,前美國宇航局宇航員
探索所遇到的機遇和障礙,明確實現非凡未來所需的目標——比如人類星際旅行或人類在地球上的可持續生存——以及大數據和先進的IT可以發揮什麼作用。
Clemens Mewal - Next Generation Data Science Workspace (Databricks) - 9:06
Lauren Richie -演示:下一代數據科學工作空間(Databricks) - 17:55
Matei Zaharia - MLflow社區和產品更新(數據)- 27:40
蘇安洪-演示:MLflow(數據)- 42:57
Rohan Kumar -負責ML(微軟)- 51:52
Sarah Bird -演示:負責ML(微軟)- 1:00:21
Anurag Sehgal -數據和AI(瑞士信貸)- 1:12:58
介紹下一代數據科學工作空間
阿裏·高德西,克萊門斯·梅瓦爾德和勞倫·裏奇
數據驅動的洞察和決策在任何公司的戰略中都是至關重要的,以跟上當今的快速變化步伐並保持相關性,這已經不再是一個秘密。雖然我們認為這是理所當然的,但我們仍然處於使數據團隊實現他們的承諾的非常早期的階段。其中一個原因是,我們還沒有為這個職業配備他們應得的現代工具包。
現有的解決方案給數據團隊留下了不可能的權衡。讓數據科學家在他們的筆記本電腦上自由使用任何開源工具,並不能為生產和治理提供一條清晰的道路。簡單地在雲中托管這些相同的工具可能會解決一些數據隱私和安全問題,但不會提高生產力和協作。另一方麵,大多數健壯的和可擴展的生產環境會減慢數據科學家的速度,從而阻礙創新和實驗。
在這次演講中,我們將推出下一代Databricks數據科學工作空間:為現代數據團隊提供開放和統一的體驗,專門用於解決這些困難的權衡。我們將介紹利用您所熟悉的開源工具的新功能,為您提供類似筆記本電腦的體驗,提供實驗的靈活性和創建可靠且可重複的生產解決方案的健壯性。
使用MLflow簡化模型開發和管理
Matei Zaharia和Sue Ann Hong
隨著組織不斷發展他們的機器學習(ML)實踐,能夠處理整個機器學習生命周期的健壯可靠的平台對於成功的結果變得至關重要。Beplay体育安卓版本構建模型很難一次性完成,但是由於依賴於參數、環境以及數據和業務需求的不斷變化的性質,以可重複、敏捷和可預測的方式將它們部署到生產環境中更加困難。
MLflow由Databricks於2018年推出,是用於管理ML整個生命周期的最廣泛使用的開源平台。Beplay体育安卓版本PyPI每月下載量超過200萬次,貢獻者超過200人,來自開發人員社區的日益增長的支持表明,需要一種開源方法來標準化ML生命周期中涉及的工具、流程和框架。MLflow極大地簡化了標準化mlop和生產ML模型的複雜過程。在這次演講中,我們將介紹MLflow中的新特性,包括簡化實驗跟蹤、改進模型格式以提高可移植性的新創新、管理和比較模型模式的新特性,以及更快地部署模型的新功能。
負責任的機器學習——為數據科學帶來責任
Rohan Kumar和Sarah Bird
負責任的ML是目前人工智能中最受關注的領域。隨著ML的重要性日益增加,對我們來說,開展合乎道德的AI實踐並確保我們創建的模型達到包容性和透明度的最高標準就變得更加重要。加入Rohan Kumar,他將講述微軟如何將前沿研究帶到客戶手中,使他們對自己的模型更負責任,並對人工智能的使用更負責任。beplay体育app下载地址對於AI社區來說,這是一份公開的邀請,邀請大家合作並為塑造負責任的ML的未來做出貢獻。
瑞信如何利用開源數據和人工智能平台推動數字化轉型、創新和增長Beplay体育安卓版本
Anurag Sehgal
盡管人們越來越多地接受大數據和人工智能,但大多數金融服務公司仍然在數據類型、隱私和規模方麵麵臨著重大挑戰。瑞信正在通過標準化開放的基於雲的平台(包括Azure Databricks)來克服這些障礙,以提高運營的速度和規模,並在整個組織中實現ML的民主化。Beplay体育安卓版本現在,瑞信通過成功地利用數據和分析來推動數字化轉型,更快地將新產品推向市場,並推動業務增長和運營效率,處於領先地位。
Ali Ghodsi -介紹湖屋,三角洲湖(數據)- 46:40
Matei Zaharia - Spark 3.0,考拉1.0 (Databricks) - 17:03
布魯克維尼格-演示:考拉1.0,火花3.0 (Databricks) - 35:46
Reynold Xin -介紹德爾塔發動機(數據)- 1:01:50
Arik Fraimovich - Redash概述和演示(數據)- 1:27:25
Vish Subramanian -釀酒數據在規模(星巴克)- 1:39:50
實現數據湖屋的願景
阿裏Ghodsi
數據倉庫在決策支持和商業智能應用方麵有著悠久的曆史。但是,數據倉庫不太適合處理現代企業中常見的非結構化、半結構化和流數據。這導致組織在大約十年前建立了原始數據的數據湖。但是,他們也缺乏重要的能力。對更好的解決方案的需求導致了數據湖屋的出現,它實現了與數據倉庫中的數據結構和數據管理功能類似的數據結構和數據管理功能,直接使用數據湖所使用的低成本存儲。
Databricks首席執行官Ali Ghodsi的主題演講解釋了為什麼開源Delta Lake項目使行業更接近於實現數據湖屋的全部潛力,包括Databricks統一數據分析平台內的新功能,以顯著加快性能。Beplay体育安卓版本此外,阿裏還將宣布新的開源功能,可以對你的數據湖協同運行SQL查詢,構建實時儀表板,並在重要變化時發出警報,使所有數據團隊更容beplay娱乐ios易分析和理解他們的數據。
Apache Spark 3.0簡介:
回顧過去10年,並展望未來10年。
Matei Zaharia和Brooke Wenig
在這個主題演講中,來自Apache Spark的最初創造者Matei Zaharia,我們將重點介紹Apache Spark 3.0的主要社區開發,以使Spark更容易使用,更快,並與更多數據源和運行時環境兼容。Apache Spark 3.0延續了該項目的最初目標,即通過對SQL和Python api的重大改進,以及自動調優和優化特性來最大限度地減少手動配置,使數據處理更易於訪問。今年也是Spark首次開源發布的10周年,我們將回顧該項目及其用戶群的增長情況,以及圍繞Spark的生態係統(例如Koalas、Delta Lake和可視化工具)是如何演變的,以使大規模數據處理更簡單、更強大。
Delta Engine:用於Delta Lake的高性能查詢引擎
雷諾鑫
星巴克如何實現其“企業數據使命”,大規模實現數據和機器學習,並提供世界級的客戶體驗
Vish薩勃拉曼尼亞
星巴克確保我們所做的一切都是通過人性的視角——從我們對世界上最高品質咖啡的承諾,到我們與客戶和社區互動的方式,以負責任的方式開展業務。beplay体育app下载地址確保這些世界級客戶體驗的一個關鍵方麵是數據。本次演講重點介紹了星巴克的企業數據分析任務,該任務有助於以巨大規模的數據為動力做出決策。這包括使用受治理的進程處理千兆字節級別的數據、以業務速度部署平台以及在整個企業範圍內啟用ML。Beplay体育安卓版本本環節將詳細介紹星巴克如何建立世界級的企業數據平台,以推動世界級的客戶體驗。Beplay体育安卓版本
去年夏天,Databricks推出了MLflow,這是一個開源平台,用於管理機器學習的生命周期,包括實驗跟蹤、可Beplay体育安卓版本重複運行和模型打包。MLflow從那時起發展迅速,有來自幾十家公司的120多名貢獻者,其中包括R Studio和微軟的主要貢獻者。它還獲得了新的功能,例如TensorFlow和Keras的自動日誌記錄,Kubernetes集成,以及高級Java API。在這次演講中,我們將介紹MLflow的一些新特性,然後重點介紹一個即將到來的主要特性:使用MLflow model Registry進行模型管理。許多組織都麵臨著跟蹤組織中哪些模型可用,哪些模型正在生產的挑戰。MLflow Model Registry提供了一個集中的數據庫來跟蹤這些模型,共享和描述新的模型版本,並通過api部署模型的最新版本。我們將演示這些特性如何簡化常見的ML生命周期任務。
去年,Databricks推出了MLflow,這是一個開源框架,用於管理機器學習生命周期,與任何ML庫一起工作,以簡化ML工程。MLflow提供了用於實驗跟蹤、可重複運行和模型管理的工具,使機器學習應用程序更容易開發和部署。在過去的一年中,MLflow社區發展迅速:來自40多家公司的80名貢獻者為該項目貢獻了代碼,超過200家公司正在使用MLflow。在這次演講中,我們將介紹MLflow 1.0的開發計劃,MLflow的下一個版本,它將穩定MLflow api,並引入多個新特性來簡化ML生命周期。我們還將討論Databricks和其他公司在2019年剩餘時間內正在開發的其他MLflow組件,例如用於模型管理、多步管道和在線監控的改進工具。
成功地構建和部署一個機器學習模型可能很難一次性完成。讓其他數據科學家(或者你自己,一個月後)重現你的管道,比較不同版本的結果,跟蹤什麼在哪裏運行,以及重新部署和回滾更新的模型要困難得多。
在這次演講中,我將介紹MLflow,這是Databricks的一個新的開源項目,它簡化了機器學習的生命周期。MLflow提供了api,用於跟蹤可重現環境中多個用戶之間的實驗運行,以及用於管理模型部署到生產環境。MLflow被設計成一個開放的模塊化平台,在某種意義上,您可以將它與任何現有的ML庫Beplay体育安卓版本和開發過程一起使用。MLflow於2018年6月發布,已經有45個貢獻者和新特性,包括新的多語言api、與流行ML庫的集成以及存儲後端。我將介紹一些新發布的特性,並解釋如何開始使用MLflow。
ML開發帶來了傳統軟件開發生命周期之外的許多新的複雜性。與傳統的軟件開發不同,ML開發人員希望嚐試多種算法、工具和參數來獲得最佳結果,並且他們需要跟蹤這些信息來重現工作。此外,開發人員需要使用許多不同的係統來生產模型。為了解決這些問題,許多公司正在構建自定義的“機器學習平台”來自動化這個生命周期,但即使是這些平台也僅限於幾個受支持的算法和每個公司的Beplay体育安卓版本內部基礎設施。在這次演講中,我將介紹MLflow,這是Databricks的一個新的開源項目,旨在設計一個開放的ML平台,組織可以使用任何ML庫和開發工具來可靠地構建和共享ML應用程序。Beplay体育安卓版本MLflow引入了簡單的抽象來打包可重複的項目,跟蹤結果,並封裝可以與許多現有工具一起使用的模型,從而加速任何規模的組織的ML生命周期。
在過去的三年裏,Spark已經從一個研究項目迅速成長為並行計算領域最活躍的開源項目之一。我將對最近的增長進行總結,強調來自整個社區的主要貢獻。與此同時,要使大數據分析真正快速可用,還有很多工作要做。我將概述Databricks如何通過我們在Apache Spark上的持續工作來解決這個問題,以及我們認為使Spark在大數據方麵真正獨特的係統方麵。
Apache Spark在社區規模和技術能力方麵繼續快速增長。自2013年12月的上次Spark峰會以來,Spark的貢獻者群體已經從100名貢獻者增長到200多名貢獻者,Spark已經成為大數據領域最活躍的開源項目。我們還看到了重要的新組件的添加,比如Spark SQL運行時,一個更大的機器學習庫,以及與其他數據處理係統的豐富集成。考慮到這些活動,"火花"的目標是什麼?我將分享Spark作為大數據中各種應用程序(例如流處理、機器學習和SQL)以及各種存儲Beplay体育安卓版本和運行時係統之間的統一平台的目標。
隨著Apache Spark用戶群的增長,開發人員社區正在努力使其適應更廣泛的用例。2014年見證了Spark在企業中的快速普及,以及其性能、可伸縮性和標準庫的重大改進。2015年,我們還希望通過針對數據科學的新高級api(機器學習管道、數據框架和R語言綁定),讓更廣泛的用戶可以訪問Spark。此外,我們正在定義擴展點,讓Spark成長為一個平台,使其易於插入數據源、算法和第三方包。Beplay体育安卓版本與Spark上的所有工作一樣,這些api旨在無縫插入現有Spark應用程序,為用戶提供流式、批處理和交互式數據處理的統一平台。Beplay体育安卓版本
2015年是Spark持續增長的一年,核心項目有大量新增項目,整個行業的用例增長非常快。在這次演講中,我將根據Databricks進行的一項大型Apache Spark用戶調查,回顧Spark社區在2015年的發展和變化。我們在運行時環境的多樣性中看到了一些有趣的趨勢(不僅僅是Hadoop);在Spark上運行的應用程序類型;以及用戶類型,現在像R支持和DataFrames等功能都可以在Spark中使用。我還將介紹Spark即將發布的版本中正在進行的工作,以支持新的用例。
Spark的下一個版本將是2.0,這是該項目的一個重要裏程碑。在這次演講中,我將介紹一些即將到來的大型功能,這些功能使我們將版本號增加到2.0,以及Spark在2016年的一些路線圖。
Apache Spark的下一個版本將是2.0,這是該項目的一個重要裏程碑。在這次演講中,我將介紹社區是如何發展到今天這個地步的,以及2.0中的一些主要特性。最大的增加是通過Project Tungsten對數據集、數據幀和SQL進行性能改進,以及一個新的結構化流API,它提供了更簡單、更強大的流處理。我還將討論一些未來版本的工作內容。
Apache Spark 2.0在今年夏天發布,並且已經被廣泛采用。我將討論API中的變化如何使批處理、流處理和實時應用程序的編寫變得更容易。Dataset API現在與DataFrames集成在一起,使得從強大的優化中受益成為可能,例如將查詢推入數據源,而該API的結構化流擴展使得以流方式自動運行許多相同的計算成為可能。
大數據仍然是一個快速發展的領域,每年都有新的應用程序和基礎設施出現。在這次演講中,我將介紹2016 / 2017年的新趨勢,以及Apache Spark如何適應這些趨勢。特別是,我將討論Databricks正在做的工作,以使Apache Spark與本機代碼(例如深度學習庫)更好地交互,支持異構硬件,並通過結構化流(Structured streaming)簡化流和批處理設置中的生產數據管道。
2017年對於大數據和Apache Spark來說仍然是令人興奮的一年。我將談論Databricks正在構建的兩個主要項目:結構化流,用於流處理的新的高級API,以及我們正在為機器學習開發的新庫。這些舉措可以在當前開源係統的基礎上提供數量級的性能改進,同時使流處理和機器學習比以往任何時候都更容易訪問。
2017年對於Apache Spark來說仍然是激動人心的一年。我將討論Spark社區今年兩個主要領域的新更新:使用結構化流處理的流處理,以及使用深度學習管道和TensorFlowOnSpark等高級庫的深度學習。在這兩個領域,社區都在Spark生態係統的其他部分(如DataFrames和ML Pipelines)使用的高級api中提供了強大的新功能,並提高了流處理和機器學習的可伸縮性和易用性。