Brooke Wenig是機器學習實踐總監。她領導著一個數據科學家團隊,為客戶開發大規模機器學習管道,並教授分布式機器學習最佳實踐課程。beplay体育app下载地址她是Learning Spark第二版的合著者,分布式計算與Spark SQL Coursera課程的聯合講師,以及Data Brew播客的聯合主持人。她獲得了加州大學洛杉磯分校計算機科學碩士學位,專注於分布式機器學習。她能說流利的普通話,喜歡騎自行車。
對人工智能的追求是當今數據領域最重要的優先事項之一。周四上午的主題演講將由Databricks聯合創始人兼首席執行官Ali Ghodsi主持,內容包括數據科學、機器學習、MLOps等開源和Databricks湖屋平台方麵的進展。Beplay体育安卓版本
我們還將邀請來自麥當勞和微軟的數據領導者,以及傳奇人物比爾·奈(Bill Nye),一位科學家、工程師、喜劇演員和作家。
軟件工程圍繞某些最佳實踐發展,如版本代碼、依賴管理、特性分支等。然而,同樣的最佳實踐並沒有轉化為數據科學。更新其ML管道的一個階段的數據科學家需要了解其更改的級聯效應,以便他們的下遊依賴不會以陳舊的數據結束,或不必要地重新運行整個端到端管道。當數據科學家合作時,他們應該能夠使用來自同事的中間結果,而不是從頭計算所有東西。
本演示展示了如何通過數據驅動軟件(DDS)的概念將數據視為代碼。這個概念實現為一個輕量級且易於使用的python包,解決了上麵提到的針對單用戶和協作數據管道的所有問題,並且它完全集成了像Databricks這樣的湖屋體係結構。beplay娱乐ios實際上,它允許數據工程師和數據科學家進行YOLO:隻加載一次數據,並且永遠不會重新計算現有的部分。
通過利用DDS的現場演示,您將看到數據科學團隊如何:
(daisna21-sessions-od)
2020年11月17日下午04:00太平洋時間
雷諾鑫
Databricks的聯合創始人兼首席架構師
在Apache Spark的頂級貢獻者和PMC成員Reynold Xin的主題演講中,我們將回顧項目的狀態,並強調在10周年發行版及之後的主要社區開發。Reynold將回顧最近的Spark 3.0版本如何專注於使其更容易使用、更快和更符合ANSI標準。由於Python代表了將近70%的筆記本命令,他將專注於Project Zen的開發——社區努力使Spark更加Python化。這包括在開發工具、API設計、錯誤處理等方麵的改進,以提高數據科學家和工程師的數據效率。
Caryl Yuhas
Databricks公司現場工程高級經理
阿裏Ghodsi
聯合創始人兼CEO
Apache Spark的原始創建者,Databricks
數據倉庫在決策支持和商業智能應用方麵有著悠久的曆史。但是,數據倉庫不太適合處理現代企業中常見的非結構化、半結構化和流數據。這導致組織在大約十年前建立了原始數據的數據湖。但是,他們也缺乏重要的能力。對更好解決方案的需求催生了湖屋體係結構,它直接基於用於數據湖的低成本存儲實現了與數據倉庫中類似的數據結構和數據管理功能。
Databricks首席執行官Ali Ghodsi在主題演講中解釋了開源的三角洲湖項目如何讓行業實現湖屋建築的全部潛力。此外,阿裏還將討論新發布的SQL Analytics服務,該服務允許用戶在他們的數據湖上運行傳統的分析,而不是將數據轉移到數據倉庫,同時不犧牲性能、安全和質量。該服務完成了湖屋體係結構的願景,允許數據湖成為所有數據工作負載的單一真實源。
弗朗索瓦Ajenstat
Tableau Software的首席產品官
布魯克身上,
Databricks的機器學習實踐主管
雷諾鑫
Databricks的聯合創始人兼首席架構師
在本次主題演講中,Databricks的聯合創始人兼首席架構師Reynold Xin將探討SQL Analytics如何為分析工作負載的數據湖帶來新的性能水平。傳統上,數據湖在分析方麵遇到了困難,因為它們難以在高用戶並發性下提供低延遲的快速查詢性能。Reynold將提供Databricks如何應對這些挑戰的技術深度分析。首先,Delta引擎,Databricks的多態向量化執行引擎,提供了非常快的單個查詢吞吐量。其次,SQL Analytics中新的自動伸縮SQL優化集群使計算能力與用戶負載匹配變得容易。第三,新的SQL Analytics endpoint中的優化將獲取查詢結果所需的時間減少了6倍。總之,SQL Analytics能夠為用戶提供數據湖經濟的數據倉庫性能,以滿足他們的分析工作負載。
阿姆斯特丹自由大學CWI教授
Phinean伍德沃德
聯合利華(Unilever)架構、信息和分析主管
在本次演講中,我們將討論Lakehouse架構如何成為聯合利華信息管理基礎設施的重要組成部分,以限製傳統企業數據筒倉,並實現快速決策所需的上下遊數據的靈活訪問。因此,IT正在幫助聯合利華在許多業務領域提供更高質量的預測,從而在整個公司建立對AI的信任。
馬爾科姆·格拉德威爾
暢銷書作家、記者和播客主持人
想象一下,如果我們能拋開政治和自我,以數據為驅動的Covid-19大流行應對措施會是什麼樣子。獲獎作家兼記者Malcolm Gladwell討論了我們可以從當前危機中學到的教訓,以及數據和數據團隊在解決世界上最棘手的問題——包括未來的大流行疫情方麵將如何發揮關鍵作用。他還揭示了數據團隊在他每天的工作中所扮演的重要角色。
阿裏Ghodsi
Ali Ghodsi -介紹湖屋,三角洲湖(Databricks) - 46:40
Matei Zaharia - Spark 3.0, Koalas 1.0(數據庫)- 17:03
演示:Koalas 1.0, Spark 3.0 (Databricks) - 35:46
reynolds Xin -介紹Delta引擎(Databricks) 1:01:50
Arik Fraimovich - Redash概述和演示(Databricks) - 1:27:25
Vish Subramanian -規模化釀酒數據(星巴克)- 1:39:50
實現數據湖屋的願景
阿裏Ghodsi
數據倉庫在決策支持和商業智能應用方麵有著悠久的曆史。但是,數據倉庫不太適合處理現代企業中常見的非結構化、半結構化和流數據。這導致組織在大約十年前建立了原始數據的數據湖。但是,他們也缺乏重要的能力。對更好解決方案的需求催生了數據湖屋,它直接在用於數據湖的低成本存儲上實現了與數據倉庫中類似的數據結構和數據管理功能。
Databricks首席執行官Ali Ghodsi在主題演講中解釋了為什麼開源的Delta Lake項目使行業更接近實現數據湖屋的全部潛力,包括Databricks統一數據分析平台內的新功能,以顯著加速性能。Beplay体育安卓版本此外,阿裏還將宣布新的開源功能,可以對你的數據湖協同運行SQL查詢,構建實時儀表板,並對重要更改發出警報,使所有數據團隊更容易beplay娱乐ios分析和理解他們的數據。
Apache Spark 3.0簡介:
回顧過去10年,展望未來10年。
Matei Zaharia和Brooke Wenig
在Matei Zaharia (Apache Spark的最初創造者)的這次主題演講中,我們將重點介紹Apache Spark 3.0發布帶來的主要社區開發,使Spark更容易使用、更快,並與更多數據源和運行時環境兼容。Apache Spark 3.0延續了該項目的最初目標,通過對SQL和Python api的重大改進,以及自動調優和優化特性,使數據處理更容易訪問,從而最小化手動配置。今年也是Spark首次開放源碼發布的十周年,我們將反思該項目及其用戶群的增長情況,以及圍繞Spark的生態係統(例如Koalas、Delta Lake和可視化工具)是如何演進的,從而使大規模數據處理變得更簡單、更強大。
Delta Engine:用於Delta Lake的高性能查詢引擎
雷諾鑫
星巴克如何實現其“企業數據使命”,大規模啟用數據和ML,並提供世界級的客戶體驗
Vish薩勃拉曼尼亞
星巴克確保我們所做的一切都是通過人性的鏡頭——從我們對世界上最高質量咖啡的承諾,到我們與顧客和社區的互動方式,以負責任的方式開展業務。beplay体育app下载地址確保這些世界級客戶體驗的一個關鍵方麵是數據。本次演講重點介紹了星巴克的企業數據分析任務,該任務幫助星巴克在海量數據的支持下做出決策。這包括使用受治理的流程以pb級處理數據、以業務速度部署平台以及在整個企業中啟用ML。Beplay体育安卓版本本環節將詳細介紹星巴克如何建立世界級的企業數據平台,以推動世界級的客戶體驗。Beplay体育安卓版本
在本次演講中,我們將重點介紹Spark生態係統中正在進行的主要工作。特別地,我們將深入研究Spark 3.0中自適應和靜態查詢優化的細節,以使Spark更易於使用和更快地運行。我們還將演示Koalas(一個開源庫,在Spark之上提供類似panda的API)中的新特性如何幫助數據科學家更快地從數據中獲得見解。
在本教程中,我們將介紹Koalas,我們在4月份的Spark + AI峰會上宣布的一個新的開源項目。Koalas是一個開源的Python包,它在Apache Spark上實現了pandas API,使pandas API可擴展到大數據。使用Koalas,數據科學家可以完成從單機到分布式環境的過渡,而不需要學習新的框架。
我們將展示Koalas自首次發布以來的新功能,討論它的路線圖,以及我們如何認為Koalas可以成為大規模數據科學的標準API。
你將學到的:
先決條件:
在本教程中,我們將介紹Koalas,我們在4月份的Spark + AI峰會上宣布的一個新的開源項目。Koalas是一個開源的Python包,它在Apache Spark上實現了pandas API,使pandas API可擴展到大數據。使用Koalas,數據科學家可以完成從單機到分布式環境的過渡,而不需要學習新的框架。
我們將展示Koalas自首次發布以來的新功能,討論它的路線圖,以及我們如何認為Koalas可以成為大規模數據科學的標準API。
你將學到的:
先決條件:
Spark + AI峰會2019主題演講:Reynold Xin, Databricks, Brooke Wenig, Databricks
我們怎樣才能超越“足夠好”?利用NLP技術,我們可以確定一個句子、短語或一段文字的總體情緒。我們可以挖掘社交數據的世界,了解人們在說什麼。但是,你如何控製那些創造幸福的因素呢?如何積極主動地讓終端用戶滿意?聊天機器人、人工聊天和對話是我們用來向彼此表達想法的手段。NLP在幫助我們處理和理解這些數據方麵很好,但也有不足之處。
在我們的課程中,我們將探討如何擴展NLP/情感分析,以調查可能發生在人與人或人與機器人之間的激烈互動。我們將展示如何找出能夠提高質量的東西,以及如何使用這些數據點來衡量聊天機器人的有效性。了解我們如何將NLTK、Stanford CoreNLP和John Snow Labs NLP等流行的NLP框架應用於金融客戶服務數據。探索分析對話的技巧,以獲得可操作的見解。帶著對如何影響客戶幸福感的理解離開。beplay体育app下载地址
我們都知道這句話——數據越大越好。但當數據變得非常大時,你如何挖掘它,使用什麼深度學習框架?本次演講將從開發人員的角度考察三個最流行的深度學習框架——tensorflow、Keras和pytorch——以及何時使用它們的分布式實現。
我們將比較來自每個框架的代碼示例,並討論它們與分布式計算引擎(如Apache Spark(可以處理大量數據))的集成,並幫助您回答以下問題:
作為開發人員,我如何選擇正確的深度學習框架?
我是想開發自己的模型,還是應該使用現有的模型?
如何通過低級api在生產力和控製之間達成平衡?
我應該選擇什麼語言?
在本節課中,我們將探索如何在30分鍾內使用Tensorflow、Keras或PyTorch構建一個深度學習應用程序。在這個階段結束後,您將有信心評估哪個框架最適合您。
會話標簽:#SAISDL3
我們都知道這句話——數據越大越好。但是當數據變得非常大時,你該如何使用它呢?本次演講將涵蓋三個最流行的深度學習框架:TensorFlow、Keras和深度學習管道,以及何時、何地和如何使用它們。
我們還將討論它們與Apache Spark(可以處理大量數據)等分布式計算引擎的集成,並幫助您回答以下問題:
-作為開發人員,我如何選擇適合自己的深度學習框架?
-我是想開發自己的模型,還是應該使用現有的模型
-如何通過低級api在生產力和控製之間達成平衡?
在本節課中,我們將向您展示使用Tensorflow、Keras和深度學習管道在30分鍾內構建一個圖像分類器是多麼容易。在這一階段之後,您將有信心評估哪個框架最適合您,並且可能對如何欺騙圖像分類器有更好的感覺!
會話標簽:#DL4SAIS