解決:如何使sparklyr擴展與Databrick……頁2 -磚- 16071

yitao · ‎08-24-2021

你好。我的當前維護者sparklyr (Apache火花R接口)和一些如sparklyr.flint sparklyr擴展。

Sparklyr有幸得到一些從磚的人的貢獻,使R用戶運行的spark_connect(方法=“磚”)的連接到磚運行時。

我的問題是如何使這種類型的火花連接在R與sparklyr擴展(例如,看到https://github.com/r-spark/sparklyr.flint/issues/55——這是我目前沒有一個好的答案因為我不是真的super-familiar與磚的連接如何工作sparklyr內部)。

一點背景:sparklyr。弗林特是弗林特R界麵時間序列庫sparklyr之上。通常,當用戶運行代碼,如以下

庫(sparklyr)庫(sparklyr.flint) sc < - spark_connect (=“yarn-client”大師,spark_home = / usr / lib /火花)

sparklyr的存在。弗林特sparklyr擴展將導致火花過程獲取一些版本的燧石時間序列庫jar文件和加載這些文件在火花會話連接。

但這沒有工作如果我們替換的sc < - spark_connect(…)的從上麵的sc < - spark_connect(方法=“磚”)”(見https://github.com/r-spark/sparklyr.flint/issues/55詳情)。我沒受過教育的猜測是'方法=“磚”有某種程度的間接參與connecting-to-Spark一步,弗林特和時間序列的jar文件被下載到錯誤的位置。

我想知道是否有一些簡單的改變sparklyr我也可以確保sparklyr擴展在磚工作。您的輸入將不勝感激。

謝謝!

Dan_Z · ‎10-13-2021

不是,init腳本運行火花開始前或任何包被加載。所以如果有依存關係,他們需要。同時,我認為如果用戶安裝,包(“your_library”),然後磚將自動安裝在所有節點上。還安裝使用圖書館UI將這樣做。但我們隻是根據假設做出解決方案。我們真的需要知道錯誤你所看到的告訴。

通常——無論你有R庫安裝在集群上也應該安裝JAR文件。我的猜測是,R的箭頭包呢,但是不確定。它肯定安裝底層c++依存關係。不知道還有一個Java組件。

Kaniz · ‎05-18-2022

嗨@yitao,隻是一個友好的後續。你還需要幫助,還是上麵的反應幫助你找到解決方案了嗎?請讓我們知道。

磚

如何使sparklyr擴展和磚運行時的工作嗎?