使用sparklyr和Microsoft R Server為Spark擴展R API

下載幻燈片

越來越多的數據科學家使用R作為他們的主要語言。盡管SparkR API自1.6版以來已經取得了巨大的進步,尤其是Apache Spark 2.0和2.1,但傳統R程序員很難接受Spark生態係統。
在這次會議上,紮伊迪將討論sparklyr它為Spark提供了一個功能豐富、簡潔的數據科學接口,並將展示它如何與Microsoft R Server結合,並擴展其底層API,從而成為Spark的一等公民。了解從單線程、內存綁定的R函數到多線程、多節點、內存不足的應用程序是多麼容易,這些應用程序可以部署在分布式集群環境中,隻需進行最少的代碼更改。通過查看完全通過R和Spark進行違約風險分類和預測的真實案例研究,您還將獲得再現性和性能方麵的最佳實踐。

會議標簽:#SFeco1



«回來
關於阿裏·紮伊迪

阿裏是微軟人工智能研究院語言理解團隊的數據科學家。他每天都在嚐試為研究人員和工程師製作工具,以便在雲和集群上有效地分析大量語言數據。阿裏在多倫多大學和斯坦福大學學習統計學和機器學習。

Baidu
map