sparklyr

磚支持sparklyr在筆記本電腦,工作和RStudio桌麵。

需求

Databricks在每個運行時發布sparklyr的最新穩定版本。通過導入已安裝的sparklyr版本,可以在Databricks R筆記本中使用sparklyr,也可以在Databricks上托管的RStudio Server中使用sparklyr。

在RStudio Desktop中,Databricks Connect允許您從本地機器連接sparklyr到Databricks集群並運行Apache Spark代碼。看到使用sparklyr和RStudio Desktop與Databricks連接

連接sparklyr到Databricks集群

要建立火花連接,你可以用“磚”中的連接方法spark_connect ().不需要附加參數spark_connect ()是需要的,也不是呼喚spark_install ()因為Spark已經安裝在Databricks集群上。

#調用spark_connect()需要首先加載sparklyr包。圖書館sparklyr#建立一個火花四射的聯係。sc<-spark_connect方法“磚”

進度條和Spark UI與sparklyr

如果將sparklyr連接對象分配給名為sc和上麵的例子一樣,在觸發Spark作業的每個命令之後,你會在筆記本上看到Spark進度條。此外,您還可以單擊進度條旁邊的鏈接,查看與指定Spark作業相關聯的Spark UI。

Sparklyr進展

使用sparklyr

安裝sparklyr並建立連接後,所有其他sparklyr API像往常一樣工作。看到例如筆記本電腦舉幾個例子。

Sparklyr通常和其他的一起使用tidyverse包dplyr.為了您的方便,這些包中的大多數都預先安裝在Databricks上。您可以簡單地導入它們並開始使用API。

一起使用sparklyr和SparkR

SparkR和sparklyr可以在一個筆記本或工作中一起使用。您可以將SparkR與sparklyr一起導入並使用它的功能。在Databricks筆記本中,SparkR連接是預先配置的。

SparkR中的一些函數掩蓋了dplyr中的一些函數:

>圖書館SparkR對象戴麵具的dplyr安排之間的合並收集包含cume_distdense_rankdesc截然不同的解釋過濾器第一個group_by相交滯後最後的引領變異nn_distinctntilepercent_rank重命名row_numbersample_frac選擇sql總結聯盟

如果在導入dplyr之後導入SparkR,則可以通過使用完全限定名引用dplyr中的函數,例如,dplyr:安排().同樣,如果在SparkR之後導入dplyr, SparkR中的函數也會被dplyr屏蔽。

或者,您可以在不需要它時有選擇地分離兩個包中的一個。

分離“包:dplyr”

另請參閱比較SparkR和sparklyr

在火花提交的工作中使用火花

您可以在Databricks上運行使用sparklyr作為spark-提交作業的腳本,隻需要進行少量的代碼修改。上麵的一些說明不適用於在Databricks上的spark-submit作業中使用sparklyr。特別地,您必須提供Spark主URLspark_connect.示例請參見為R腳本創建並運行spark-submit作業

不支持的功能

Databricks不支持sparklyr方法,如spark_web ()而且spark_log ()這需要本地瀏覽器。但是,由於Spark UI內置在Databricks上,您可以輕鬆地檢查Spark作業和日誌。看到集群驅動程序和工作者日誌

Sparklyr筆記本

有關其他示例,請參見在R中使用數據幀和表