sparklyr
磚支持sparklyr在筆記本電腦,工作和RStudio桌麵。
需求
Databricks在每個運行時發布sparklyr的最新穩定版本。通過導入已安裝的sparklyr版本,可以在Databricks R筆記本中使用sparklyr,也可以在Databricks上托管的RStudio Server中使用sparklyr。
在RStudio Desktop中,Databricks Connect允許您從本地機器連接sparklyr到Databricks集群並運行Apache Spark代碼。看到使用sparklyr和RStudio Desktop與Databricks連接.
連接sparklyr到Databricks集群
要建立火花連接,你可以用“磚”
中的連接方法spark_connect ()
.不需要附加參數spark_connect ()
是需要的,也不是呼喚spark_install ()
因為Spark已經安裝在Databricks集群上。
#調用spark_connect()需要首先加載sparklyr包。圖書館(sparklyr)#建立一個火花四射的聯係。sc<-spark_connect(方法=“磚”)
進度條和Spark UI與sparklyr
如果將sparklyr連接對象分配給名為sc
和上麵的例子一樣,在觸發Spark作業的每個命令之後,你會在筆記本上看到Spark進度條。此外,您還可以單擊進度條旁邊的鏈接,查看與指定Spark作業相關聯的Spark UI。
使用sparklyr
安裝sparklyr並建立連接後,所有其他sparklyr API像往常一樣工作。看到例如筆記本電腦舉幾個例子。
Sparklyr通常和其他的一起使用tidyverse包如dplyr.為了您的方便,這些包中的大多數都預先安裝在Databricks上。您可以簡單地導入它們並開始使用API。
一起使用sparklyr和SparkR
SparkR和sparklyr可以在一個筆記本或工作中一起使用。您可以將SparkR與sparklyr一起導入並使用它的功能。在Databricks筆記本中,SparkR連接是預先配置的。
SparkR中的一些函數掩蓋了dplyr中的一些函數:
>圖書館(SparkR)的後對象是戴麵具的從”包:dplyr”:安排,之間的,合並,收集,包含,數,cume_dist,dense_rank,desc,截然不同的,解釋,過濾器,第一個,group_by,相交,滯後,最後的,引領,變異,n,n_distinct,ntile,percent_rank,重命名,row_number,sample_frac,選擇,sql,總結,聯盟
如果在導入dplyr之後導入SparkR,則可以通過使用完全限定名引用dplyr中的函數,例如,dplyr:安排()
.同樣,如果在SparkR之後導入dplyr, SparkR中的函數也會被dplyr屏蔽。
或者,您可以在不需要它時有選擇地分離兩個包中的一個。
分離(“包:dplyr”)
另請參閱比較SparkR和sparklyr.
在火花提交的工作中使用火花
您可以在Databricks上運行使用sparklyr作為spark-提交作業的腳本,隻需要進行少量的代碼修改。上麵的一些說明不適用於在Databricks上的spark-submit作業中使用sparklyr。特別地,您必須提供Spark主URLspark_connect
.示例請參見為R腳本創建並運行spark-submit作業.
不支持的功能
Databricks不支持sparklyr方法,如spark_web ()
而且spark_log ()
這需要本地瀏覽器。但是,由於Spark UI內置在Databricks上,您可以輕鬆地檢查Spark作業和日誌。看到集群驅動程序和工作者日誌.
有關其他示例,請參見在R中使用數據幀和表.