阿裏Ghodsi

Apache Spark、Databricks的聯合創始人兼首席執行官

    Ali Ghodsi是Databricks的首席執行官和聯合創始人,負責公司的增長和國際擴張。在2016年1月擔任首席執行官之前,他曾擔任工程和產品管理副總裁。除了在Databricks工作,阿裏還是加州大學伯克利分校的兼職教授,也是加州大學伯克利分校RiseLab的董事會成員。阿裏是開源項目Apache Spark的創始人之一,他在資源管理調度、數據緩存等領域的學術研究成果已應用於Apache Mesos和Apache Hadoop。阿裏於2003年在瑞典中部大學獲得工商管理碩士學位,2006年在瑞典皇家理工學院獲得分布式計算領域的博士學位。

    請在2021年數據+ AI峰會上觀看這位演講者的演講

    過去的會議

    2021年峰會 主題:數據科學和機器學習

    2021年5月27日上午08:30

    追求人工智能是當今數據領域的最大優先事項之一。周四上午的主題演講將由Databricks聯合創始人兼首席執行官Ali Ghodsi主持,內容包括數據科學、機器學習、MLOps等在開源和Databricks Lakehouse平台方麵的進展。Beplay体育安卓版本

    來自麥當勞和微軟的數據領袖,以及科學家、工程師、喜劇演員和作家、傳奇人物比爾·奈(Bill Nye)也將加入我們的行列。

    2021年峰會 主題:Lakehouse數據架構、數據工程和分析

    2021年5月26日上午08:00

    參加周三上午的主題演講,聆聽Databricks的聯合創始人和流行項目Apache Spark、Delta Lake和MLflow的原創創造者關於開源社區如何應對數據領域的最大挑戰。

    敬請期待,它們將揭示數據工程和數據分析領域的一些最新創新,以簡化和擴展您的工作。

    周四上午主題

    2020年11月18日下午04:00

    歡迎來自Databricks的Ali Ghodsi


    利用MLflow的新功能將機器學習帶到生產中

    馬泰Zaharia
    計算機科學助理教授,Apache Spark和MLflow的原創作者,Databricks

    部署和操作機器學習應用程序是具有挑戰性的,因為它們高度依賴輸入數據,並可能以複雜的方式失敗。數據格式的訓練/推斷差異、數據傾斜和錯誤配置的軟件環境等問題很容易混入生產應用程序,並影響其質量。為了解決這些類型的問題,組織正在采用ML平台軟件和MLOps實踐,專門用於管理機器學習應用程序。Beplay体育安卓版本

    在本次演講中,我將介紹一些用於MLflow機器學習生產的最新功能,MLflow是由Databricks在2018年啟動的流行開源機器學習平台。Beplay体育安卓版本這些包括使用模型注冊中心對模型管理和檢查的內置支持、用於自動持續集成和交付(CI/CD)的api、捕捉模型預期數據格式差異的模型模式,以及與模型解釋工具的集成。我還將討論在開源MLflow社區中發生的其他工作,包括與PyTorch的深度集成及其日益增長的模型生產工具生態係統。


    演示:CI/CD和帶有MLflow的MLOps

    得Uhlenhuth
    高級產品經理,機器學習,Databricks


    PyTorch和MLflow,從研發到生產

    林巧
    Facebook PyTorch工程總監

    Facebook AI團隊的工程總監林喬(Lin Qiao)談到了將機器學習大規模應用於生產,包括PyTorch與MLflow的集成。她談到了PyTorch的指導原則,以及從2016年最初開發到現在的目標,重點是生態係統兼容性。

    Lin回顧了PyTorch生產生態係統,並討論了MLflow和PyTorch如何集成用於跟蹤、模型和模型服務。


    介紹下一代數據科學工作空間

    克萊門斯Mewald
    Databricks產品管理,數據科學和機器學習總監

    在任何公司的戰略中,數據驅動的洞察力和決策製定對於緊跟當今快速變化的步伐並保持與時俱進已經不再是秘密。雖然我們認為這種認識是理所當然的,但我們仍然處於使數據團隊實現其承諾的非常早期階段。其中一個原因是,我們沒有為這個行業配備他們應得的現代工具。

    現有的解決方案給數據團隊留下了不可能的權衡。給數據科學家在他們的筆記本電腦上使用任何開源工具的自由並不能為生產和管理提供一條清晰的路徑。簡單地將這些相同的工具托管在雲上可能會解決一些數據隱私和安全問題,但不會提高生產力和協作。另一方麵,最健壯和可伸縮的生產環境會減慢數據科學家的速度,從而阻礙創新和實驗。

    在本次演講中,我們將介紹在Databricks上的下一代數據科學工作空間的最新情況,該工作空間最初是在Spark + AI峰會2020年發布的。具體來說,我們將介紹Databricks筆記本的新功能以及基於git的Databricks項目。到目前為止,業界一直認為協作筆記本電腦隻是用於實驗,而不是用於生產。beplay娱乐ios我們的方法解決了這些挑戰,並首次為數據團隊提供了一個單一的平台,以快速而自信地從實驗走向生產。Beplay体育安卓版本

    在本次演講中,我們將推出下一代Databricks數據科學工作區:專門為現代數據團隊設計的開放和統一的體驗,以解決這些困難的權衡。我們將介紹利用您熟悉的開放源碼工具的新特性,為您提供類似筆記本電腦的體驗,提供試驗的靈活性和創建可靠和可複製的生產解決方案的健壯性。


    討論與戴姆勒

    史蒂芬施瓦茨
    生產計劃:智能數據處理經理(奔馳運營),戴姆勒

    塞巴斯蒂安Findeisen
    數據科學家,戴姆勒

    當我們想到豪華車時,首先想到的往往是最終產品——光滑的設計、行駛速度等等。但我們常常忽略了汽車從裝配線下線之前所花費的巨大努力。在本次演講中,戴姆勒將向我們展示數據和ML如何在驅動汽車生產自動化方麵發揮關鍵作用,利用MLOps和MLflow等工具來實現許多複雜流程的自動化,並提供提高生產效率的見解。


    負責任的ML -在數據科學主題演講中引入責任

    Rohan庫馬爾
    微軟Azure數據公司副總裁

    負責任的ML是目前AI領域最熱門的話題。隨著ML越來越重要,對我們來說,更重要的是實踐合乎道德的AI實踐,並確保我們創建的模型符合最高標準的包容性和透明度。請聽羅翰·庫馬爾(Rohan Kumar)講述微軟如何將尖端研究帶到客戶手中,讓他們對自己的模型更負責,對他們使用人工智能更負責。beplay体育app下载地址對於AI社區來說,這是一個公開的邀請,共同為塑造負責任的ML的未來做出貢獻。本次主題演講是全球峰會的返場演講。


    演示:負責任AI的Azure工具

    莎拉的鳥
    微軟Azure AI首席項目經理


    追求非凡:數據革命

    來自Mae Jemison的主題演講
    世界上第一位進入太空的有色人種女性,前美國宇航局宇航員

    探索遇到的機遇和障礙,明確實現非凡未來所需的目標——如人類星際旅行或人類在地球上的可持續生存——以及大數據和推進IT可以發揮什麼作用。

    周三上午主題

    2020年11月17日下午04:00

    歡迎來自Databricks的Ali Ghodsi


    Project Zen:讓Spark變得python化

    雷諾鑫
    Databricks聯合創始人兼首席架構師

    在這個由Apache Spark和PMC成員的頂級貢獻者Reynold Xin發表的主題演講中,我們將回顧項目的狀態,並強調在10周年發布會上以及以後的主要社區發展。Reynold將回顧一下最近發布的Spark 3.0是如何專注於讓它更容易使用、更快、更符合ANSI標準的。由於Python代表了近70%的筆記本命令,他將專注於Project Zen的開發——社區努力使Spark更加Python化。這包括在開發工具、API設計、錯誤處理等方麵的改進,以提高數據科學家和工程師使用數據的效率。


    演示:蟒蛇火花與真正的考拉

    Caryl Yuhas
    高級經理,現場工程,Databricks


    Lakehouse的崛起

    阿裏Ghodsi
    聯合創始人兼首席執行官

    Apache Spark的原始創造者,Databricks

    數據倉庫在決策支持和商業智能應用方麵有著悠久的曆史。但是,數據倉庫並不適合處理現代企業中常見的非結構化、半結構化和流數據。這導致組織在大約十年前建立原始數據的數據湖。但是,它們也缺乏重要的能力。對更好解決方案的需求催生了湖屋架構,它實現了與數據倉庫中類似的數據結構和數據管理功能,直接在數據湖使用的低成本存儲上實現。

    Databricks首席執行官Ali Ghodsi的主題演講解釋了開源三角洲湖項目如何讓行業實現湖屋建築的全部潛力。此外,阿裏還將討論新發布的SQL分析服務,該服務允許用戶在他們的數據湖上運行傳統的分析,而不是將數據轉移到數據倉庫,而不犧牲性能、安全和質量。這個服務完成了lakehouse架構的願景,允許數據湖成為所有數據工作負載的單一真實來源。


    用Tableau軟件進行討論

    弗朗索瓦Ajenstat
    首席產品官,Tableau Software


    演示:SQL分析和Lakehouse架構

    布魯克身上,
    機器學習實踐主管,Databricks


    SQL分析如何使Lakehouse快速

    雷諾鑫
    Databricks聯合創始人兼首席架構師

    在這次的主題演講中,Reynold Xin, Databricks的聯合創始人和首席架構師,將探討SQL分析如何為數據湖的分析工作負載帶來一個新的性能水平。傳統上,數據湖很難進行分析,因為它們很難在高用戶並發性下提供低延遲的快速查詢性能。Reynold將從技術上深入探討Databricks是如何應對這些挑戰的。首先,Delta Engine, Databricks的多態向量化執行引擎,提供極快的單查詢吞吐量。其次,SQL Analytics中新的自動伸縮SQL優化集群可以輕鬆地將計算能力與用戶負載匹配起來。第三,新的SQL Analytics Endpoints中的優化將獲得查詢結果所需的時間減少了至多6倍。總之,SQL Analytics能夠為用戶的分析工作負載提供數據湖經濟的數據倉庫性能。


    與Peter Boncz討論

    阿姆斯特丹自由大學教授


    與聯合利華

    Phinean伍德沃德
    聯合利華架構、信息與分析主管

    在這次演講中,我們將討論Lakehouse架構如何成為聯合利華信息管理基礎設施的關鍵部分,以限製傳統企業數據豎井,並支持對上遊和下遊數據的敏捷訪問,從而更快地做出決策。因此,IT正在幫助聯合利華在許多業務領域提供更高質量的預測,從而在整個公司建立對人工智能的信任。


    為什麼數據應該推動下一次大流行應對

    馬爾科姆·格拉德威爾
    暢銷書作家,記者,播客主持人

    想象一下,如果我們能把政治和自我放在一邊,用數據來應對Covid-19大流行會是什麼樣子。獲獎作家兼記者Malcolm Gladwell討論了我們可以從當前危機中學到的教訓,以及數據和數據團隊如何在解決世界上最棘手的問題——包括未來的大流行疫情——方麵發揮關鍵作用。他還揭示了數據團隊在他每天的工作中扮演的重要角色。


    關閉

    阿裏Ghodsi

    2020年峰會 2020 Spark + AI峰會:周四上午的主題演講

    2020年6月24日下午05:00

    Clemens Mewal -下一代數據科學工作區(Databricks) - 9:06
    Lauren Richie - DEMO:下一代數據科學工作區(Databricks) - 17:55
    Matei Zaharia - MLflow社區和產品更新(數據庫)- 27:40
    Sue Ann Hong - DEMO: MLflow (Databricks) - 42:57
    Rohan Kumar - Responsible ML(微軟)- 51:52
    Sarah Bird - DEMO: Responsible ML(微軟)- 1:00:21
    Anurag Sehgal -數據和AI(瑞士信貸)- 1:12:58


    介紹下一代數據科學工作空間
    阿裏·古德西,克萊門斯·梅瓦爾德和勞倫·裏奇

    在任何公司的戰略中,數據驅動的洞察力和決策製定對於緊跟當今快速變化的步伐並保持與時俱進已經不再是秘密。雖然我們認為這種認識是理所當然的,但我們仍然處於使數據團隊實現其承諾的非常早期階段。其中一個原因是,我們沒有為這個行業配備他們應得的現代工具。

    現有的解決方案給數據團隊留下了不可能的權衡。給數據科學家在他們的筆記本電腦上使用任何開源工具的自由並不能為生產和管理提供一條清晰的路徑。簡單地將這些相同的工具托管在雲上可能會解決一些數據隱私和安全問題,但不會提高生產力和協作。另一方麵,最健壯和可伸縮的生產環境會減慢數據科學家的速度,從而阻礙創新和實驗。

    在本次演講中,我們將推出下一代Databricks數據科學工作區:專門為現代數據團隊設計的開放和統一的體驗,以解決這些困難的權衡。我們將介紹利用您熟悉的開放源碼工具的新特性,為您提供類似筆記本電腦的體驗,提供試驗的靈活性和創建可靠和可複製的生產解決方案的健壯性。


    使用MLflow簡化模型開發和管理
    Matei Zaharia和Sue Ann Hong

    隨著組織繼續開發他們的機器學習(ML)實踐,對能夠處理整個機器學習生命周期的健壯和可靠的平台的需求對成功的結果變得至關重要。Beplay体育安卓版本一次構建模型是非常困難的,但是由於對參數、環境以及不斷變化的數據和業務需求的依賴,以可重現的、敏捷的和可預測的方式將它們部署到生產中是非常困難的。

    MLflow是由Databricks於2018年推出的,是應用最廣泛的管理ML全生命周期的開源平台。Beplay体育安卓版本隨著每月超過200萬次PyPI下載和超過200名貢獻者的加入,來自開發人員社區的日益增長的支持表明,需要一種開源方法來標準化ML生命周期中涉及的工具、過程和框架。MLflow極大地簡化了標準化MLOps和產品化ML模型的複雜過程。在這次演講中,我們將介紹MLflow中的新特性,包括簡化的實驗跟蹤,模型格式的新創新以提高可移植性,管理和比較模型模式的新特性,以及更快地部署模型的新功能。


    負責任的ML -為數據科學帶來責任
    Rohan Kumar和Sarah Bird

    負責任的ML是目前AI領域最熱門的話題。隨著ML越來越重要,對我們來說,更重要的是實踐合乎道德的AI實踐,並確保我們創建的模型符合最高標準的包容性和透明度。請聽羅翰·庫馬爾(Rohan Kumar)講述微軟如何將尖端研究帶到客戶手中,讓他們對自己的模型更負責,對他們使用人工智能更負責。beplay体育app下载地址對於AI社區來說,這是一個公開的邀請,邀請他們合作並為塑造負責任的ML的未來做出貢獻。


    瑞士信貸如何利用開源數據和AI平台來推動數字轉型、創新和增長Beplay体育安卓版本
    Anurag Sehgal

    盡管大數據和人工智能越來越受歡迎,但大多數金融服務公司仍在數據類型、隱私和規模方麵麵臨重大挑戰。瑞士信貸正在通過標準化開放的、基於雲的平台(包括Azure Databricks)來克服這些障礙,以提高運營速度和規模,以及ML在整個組織中的民主化。Beplay体育安卓版本現在,瑞士信貸正通過成功地利用數據和分析來推動數字化轉型,更快地向市場交付新產品,並推動業務增長和運營效率。

    2020年峰會 2020 Spark + AI峰會:周三早間主題演講

    2020年6月23日下午05:00

    Ali Ghodsi - Lakehouse介紹,Delta Lake (Databricks) - 46:40
    Matei Zaharia - Spark 3.0, Koalas 1.0 (Databricks) - 17:03
    Brooke Wenig - DEMO:考拉1.0,Spark 3.0(數據ricks) - 35:46
    新雷諾-台達發動機介紹(Databricks) - 1:01:50
    Arik Fraimovich - Redash概述和演示(數據ricks) - 1:27:25
    Vish Subramanian -釀造數據的規模(星巴克)- 1:39:50


    實現數據湖屋願景
    阿裏Ghodsi

    數據倉庫在決策支持和商業智能應用方麵有著悠久的曆史。但是,數據倉庫並不適合處理現代企業中常見的非結構化、半結構化和流數據。這導致組織在大約十年前建立原始數據的數據湖。但是,它們也缺乏重要的能力。對更好解決方案的需求催生了數據湖屋,它直接在用於數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。

    Databricks首席執行官Ali Ghodsi的主題演講解釋了為什麼開源Delta Lake項目使行業更接近於實現數據湖房的全部潛力,包括Databricks統一數據分析平台內的新功能,以顯著加快性能。Beplay体育安卓版本此外,阿裏還將宣布新的開源功能,以協同運行針對數據湖的SQL查詢,構建實時儀表板,並在重要變化時發出警報,使所有數據團隊更容易beplay娱乐ios分析和理解他們的數據。


    Apache Spark 3.0簡介:
    回顧過去十年,展望未來十年。
    Matei Zaharia和Brooke Wenig

    在Matei Zaharia (Apache Spark的創始人)的主題演講中,我們將重點介紹Apache Spark 3.0發布後的主要社區開發,使Spark更容易使用,更快,並與更多的數據源和運行時環境兼容。Apache Spark 3.0延續了項目的最初目標,通過對SQL和Python api的重大改進,以及自動調優和優化特性來最小化手動配置,從而使數據處理更易於訪問。今年也是Spark最初開源發布的10周年紀念日,我們將回顧這個項目及其用戶基礎是如何增長的,以及圍繞Spark的生態係統(如考拉、Delta Lake和可視化工具)是如何發展的,使大規模數據處理變得更簡單、更強大。


    Delta Engine:用於Delta Lake的高性能查詢引擎
    雷諾鑫


    星巴克如何實現其“企業數據使命”,使數據和ML規模化,並提供世界級的客戶體驗
    Vish薩勃拉曼尼亞

    星巴克確保我們所做的一切都是透過人性的鏡頭——從我們對世界上最高品質咖啡的承諾,到我們與顧客和社區打交道的方式,以負責任的方式開展業務。beplay体育app下载地址確保這些世界級客戶體驗的一個關鍵方麵是數據。本次演講強調了星巴克的企業數據分析任務,即幫助在巨大規模的數據支持下做出決策。這包括使用受治理的流程以拍字節規模處理數據、以業務速度部署平台以及在整個企業中啟用ML。Beplay体育安卓版本這一環節將詳細介紹星巴克如何建立世界級的企業數據平台來驅動世界級的客戶體驗。Beplay体育安卓版本

    峰會的歐洲2019 統一數據分析:幫助數據團隊解決世界上最棘手的問題

    2019年10月15日下午05:00

    在這次演講中,我們將強調數據所帶來的機會,以解決世界上最棘手的問題。盡管數據帶來了希望,但大多數數據團隊都麵臨著數據、技術和組織豎井的挑戰。統一數據分析(Unified Data Analytics)提供了一種完全不同的方法,通過將所有數據與分析相統一來解鎖數據潛力——從商業智能到機器學習。

    2019年峰會 Ali Ghodsi, Michael Armbrust在三角洲湖報道

    2019年4月23日下午05:00

    Ali Ghodsi (Databricks), Michael Armbrust (Databricks) - Spark + AI峰會2019主題演講

    峰會的歐洲2018 統一分析的力量- EU Keynote

    2022年5月10日晚上9點23分

    2018年峰會 與Marc Andreessen和Ali Ghodsi的爐邊談話

    2018年6月5日下午05:00

    2018年峰會 統一分析的力量- NA主題演講

    2018年6月5日下午05:00

    阿裏是Databricks的首席執行官和聯合創始人,負責公司的增長和國際擴張。阿裏是開源項目Apache Spark的創始人之一,他在資源管理調度、數據緩存等領域的學術研究成果已應用於Apache Mesos和Apache Hadoop。阿裏於2003年在瑞典中部大學獲得工商管理碩士學位,2006年在瑞典皇家理工學院獲得分布式計算領域的博士學位

    2017年峰會 磚主題

    2017年6月6日下午05:00太平洋時間

    東2016年峰會 數據訪問民主化

    2016年2月16日下午04:00

    Databricks的願景是讓企業的大數據變得簡單。在這次主題演講中,Databricks的聯合創始人兼首席執行官Ali Ghodsi將宣布Databricks社區版的beta版本,這是我們基於雲的Spark平台的免費版本,目的是讓Spark易於學習和大眾訪問。Beplay体育安卓版本

    2016年峰會 用雲中的Apache Spark顛覆大數據

    2016年6月7日下午05:00太平洋時間

    峰會的歐洲2016 用Apache Spark民主化AI

    2016年10月26日下午05:00

    峰會的歐洲2017 宣布磚δ

    2017年10月24日下午05:00

    Databricks首席執行官Ali Ghodsi介紹了Databricks Delta,這是一種新的數據管理係統,結合了數據湖的規模和成本效率,數據倉庫的性能和可靠性,以及流的低延遲。

    了解更多:

  • 磚三角洲的指南
  • 數據增量:實時大數據的統一數據管理係統
  • 阿裏Ghodsi
    Baidu
    map