你好。我的當前維護者sparklyr (Apache火花R接口)和一些如sparklyr.flint sparklyr擴展。
Sparklyr有幸得到一些從磚的人的貢獻,使R用戶運行的spark_connect(方法=“磚”)的連接到磚運行時。
我的問題是如何使這種類型的火花連接在R與sparklyr擴展(例如,看到https://github.com/r-spark/sparklyr.flint/issues/55——這是我目前沒有一個好的答案因為我不是真的super-familiar與磚的連接如何工作sparklyr內部)。
一點背景:sparklyr。弗林特是弗林特R界麵時間序列庫sparklyr之上。通常,當用戶運行代碼,如以下
庫(sparklyr)庫(sparklyr.flint) sc < - spark_connect (=“yarn-client”大師,spark_home = / usr / lib /火花)
sparklyr的存在。弗林特sparklyr擴展將導致火花過程獲取一些版本的燧石時間序列庫jar文件和加載這些文件在火花會話連接。
但這沒有工作如果我們替換的sc < - spark_connect(…)的從上麵的sc < - spark_connect(方法=“磚”)”(見https://github.com/r-spark/sparklyr.flint/issues/55詳情)。我沒受過教育的猜測是'方法=“磚”有某種程度的間接參與connecting-to-Spark一步,弗林特和時間序列的jar文件被下載到錯誤的位置。
我想知道是否有一些簡單的改變sparklyr我也可以確保sparklyr擴展在磚工作。您的輸入將不勝感激。
謝謝!
不是,init腳本運行火花開始前或任何包被加載。所以如果有依存關係,他們需要。同時,我認為如果用戶安裝,包(“your_library”),然後磚將自動安裝在所有節點上。還安裝使用圖書館UI將這樣做。但我們隻是根據假設做出解決方案。我們真的需要知道錯誤你所看到的告訴。
通常——無論你有R庫安裝在集群上也應該安裝JAR文件。我的猜測是,R的箭頭包呢,但是不確定。它肯定安裝底層c++依存關係。不知道還有一個Java組件。