在本教程中,我們將介紹Koalas,這是我們在4月份的Spark + AI峰會上宣布的一個新的開源項目。Koalas是一個開源的Python包,它在Apache Spark上實現了pandas API,使pandas API可擴展到大數據。使用Koalas,數據科學家可以從一台機器過渡到分布式環境,而不需要學習新的框架。
我們將展示Koalas自首次發布以來的新功能,討論它的路線圖,以及我們如何認為Koalas可以成為大規模數據科學的標準API。
你將學到:
先決條件:
荷蘭銀行(ABN AMRO)
蒂姆·亨特(Tim Hunter)是荷蘭銀行的高級人工智能專家。他是Databricks的早期軟件工程師,為Apache Spark MLlib項目做出了貢獻,他與人共同創建了Koalas、GraphFrames、TensorFrames和Deep Learning Pipelines庫。他擁有加州大學伯克利分校的機器學習博士學位,自Spark 0.0.2版本以來,他一直在使用Spark構建分布式機器學習係統,在Spark成為Apache軟件基金會項目之前。
磚
Brooke Wenig是機器學習實踐部門的主管。她領導著一個數據科學家團隊,為客戶開發大規模機器學習管道,並教授關於分布式機器學習最佳實踐的課程。beplay体育app下载地址她是Learning Spark第二版的合著者,分布式計算與Spark SQL Coursera課程的聯合講師,以及Data Brew播客的聯合主持人。她獲得加州大學洛杉磯分校計算機科學碩士學位,專注於分布式機器學習。她說一口流利的普通話,喜歡騎自行車。(daisna21-speakers)
磚
Niall Turbitt是Databricks機器學習實踐團隊的高級數據科學家。他與Databricks客戶合作,構建和部署機器beplay体育app下载地址學習解決方案,並提供專注於Spark機器學習的培訓課程。他擁有都柏林大學學院的統計學碩士學位,之前在從電子商務到供應鏈和物流等一係列領域構建可擴展的數據科學解決方案方麵有經驗。