sparklyr

磚支持sparklyr在筆記本電腦，工作和RStudio桌麵。

需求

Databricks在每個運行時發布sparklyr的最新穩定版本。通過導入已安裝的sparklyr版本，可以在Databricks R筆記本中使用sparklyr，也可以在Databricks上托管的RStudio Server中使用sparklyr。

在RStudio Desktop中，Databricks Connect允許您從本地機器連接sparklyr到Databricks集群並運行Apache Spark代碼。看到使用sparklyr和RStudio Desktop與Databricks連接．

連接sparklyr到Databricks集群

要建立火花連接，你可以用“磚”中的連接方法spark_connect ()．不需要附加參數spark_connect ()是需要的，也不是呼喚spark_install ()因為Spark已經安裝在Databricks集群上。

             #調用spark_connect()需要首先加載sparklyr包。圖書館（sparklyr）#建立一個火花四射的聯係。sc<-spark_connect（方法＝“磚”）
            

進度條和Spark UI與sparklyr

如果將sparklyr連接對象分配給名為sc和上麵的例子一樣，在觸發Spark作業的每個命令之後，你會在筆記本上看到Spark進度條。此外，您還可以單擊進度條旁邊的鏈接，查看與指定Spark作業相關聯的Spark UI。

使用sparklyr

安裝sparklyr並建立連接後，所有其他sparklyr API像往常一樣工作。看到例如筆記本電腦舉幾個例子。

Sparklyr通常和其他的一起使用tidyverse包如dplyr．為了您的方便，這些包中的大多數都預先安裝在Databricks上。您可以簡單地導入它們並開始使用API。

一起使用sparklyr和SparkR

SparkR和sparklyr可以在一個筆記本或工作中一起使用。您可以將SparkR與sparklyr一起導入並使用它的功能。在Databricks筆記本中，SparkR連接是預先配置的。

SparkR中的一些函數掩蓋了dplyr中的一些函數:

             >圖書館（SparkR）的後對象是戴麵具的從”包：dplyr”：安排，之間的，合並，收集，包含，數，cume_dist，dense_rank，desc，截然不同的，解釋，過濾器，第一個，group_by，相交，滯後，最後的，引領，變異，n，n_distinct，ntile，percent_rank，重命名，row_number，sample_frac，選擇，sql，總結，聯盟
            

如果在導入dplyr之後導入SparkR，則可以通過使用完全限定名引用dplyr中的函數，例如，dplyr:安排()．同樣，如果在SparkR之後導入dplyr, SparkR中的函數也會被dplyr屏蔽。

或者，您可以在不需要它時有選擇地分離兩個包中的一個。

             分離（“包:dplyr”）
            

另請參閱比較SparkR和sparklyr．

在火花提交的工作中使用火花

您可以在Databricks上運行使用sparklyr作為spark-提交作業的腳本，隻需要進行少量的代碼修改。上麵的一些說明不適用於在Databricks上的spark-submit作業中使用sparklyr。特別地，您必須提供Spark主URLspark_connect．示例請參見為R腳本創建並運行spark-submit作業．

不支持的功能

Databricks不支持sparklyr方法，如spark_web ()而且spark_log ()這需要本地瀏覽器。但是，由於Spark UI內置在Databricks上，您可以輕鬆地檢查Spark作業和日誌。看到集群驅動程序和工作者日誌．

Sparklyr筆記本

在新選項卡中打開筆記本

有關其他示例，請參見在R中使用數據幀和表．