使用sparklyr和Microsoft R Server為Spark擴展R API

下載幻燈片

越來越多的數據科學家使用R作為他們的主要語言。盡管SparkR API自1.6版以來已經取得了巨大的進步，尤其是Apache Spark 2.0和2.1，但傳統R程序員很難接受Spark生態係統。
在這次會議上，紮伊迪將討論sparklyr它為Spark提供了一個功能豐富、簡潔的數據科學接口，並將展示它如何與Microsoft R Server結合，並擴展其底層API，從而成為Spark的一等公民。了解從單線程、內存綁定的R函數到多線程、多節點、內存不足的應用程序是多麼容易，這些應用程序可以部署在分布式集群環境中，隻需進行最少的代碼更改。通過查看完全通過R和Spark進行違約風險分類和預測的真實案例研究，您還將獲得再現性和性能方麵的最佳實踐。

會議標簽:#SFeco1

«回來

關於阿裏·紮伊迪

阿裏是微軟人工智能研究院語言理解團隊的數據科學家。他每天都在嚐試為研究人員和工程師製作工具，以便在雲和集群上有效地分析大量語言數據。阿裏在多倫多大學和斯坦福大學學習統計學和機器學習。