取消
顯示的結果
而不是尋找
你的意思是:

如何使sparklyr擴展和磚運行時的工作嗎?

yitao
新的貢獻者三世

你好。我的當前維護者sparklyr (Apache火花R接口)和一些如sparklyr.flint sparklyr擴展。

Sparklyr有幸得到一些從磚的人的貢獻,使R用戶運行的spark_connect(方法=“磚”)的連接到磚運行時。

我的問題是如何使這種類型的火花連接在R與sparklyr擴展(例如,看到https://github.com/r-spark/sparklyr.flint/issues/55——這是我目前沒有一個好的答案因為我不是真的super-familiar與磚的連接如何工作sparklyr內部)。

一點背景:sparklyr。弗林特是弗林特R界麵時間序列庫sparklyr之上。通常,當用戶運行代碼,如以下

庫(sparklyr)庫(sparklyr.flint) sc < - spark_connect (=“yarn-client”大師,spark_home = / usr / lib /火花)

sparklyr的存在。弗林特sparklyr擴展將導致火花過程獲取一些版本的燧石時間序列庫jar文件和加載這些文件在火花會話連接。

但這沒有工作如果我們替換的sc < - spark_connect(…)的從上麵的sc < - spark_connect(方法=“磚”)”(見https://github.com/r-spark/sparklyr.flint/issues/55詳情)。我沒受過教育的猜測是'方法=“磚”有某種程度的間接參與connecting-to-Spark一步,弗林特和時間序列的jar文件被下載到錯誤的位置。

我想知道是否有一些簡單的改變sparklyr我也可以確保sparklyr擴展在磚工作。您的輸入將不勝感激。

謝謝!

1接受解決方案

接受的解決方案

塞巴斯蒂安。
貢獻者

就像任何R圖書館你可以有一個init腳本庫複製到集群的R運行時。我管理所有圖書館使用全球Init腳本/本地集群級別。它存儲在一個山,在集群啟動運行一個複製命令將運行時庫

在原帖子查看解決方案

6個回答6

Kaniz
社區經理
社區經理

你好@yitao!我的名字叫Kaniz,和我是一個技術主持人。很高興認識你,謝謝你的問題!看看你的同行在論壇上先回答你的問題。否則我們將很快跟進與回複。

塞巴斯蒂安。
貢獻者

就像任何R圖書館你可以有一個init腳本庫複製到集群的R運行時。我管理所有圖書館使用全球Init腳本/本地集群級別。它存儲在一個山,在集群啟動運行一個複製命令將運行時庫

Dan_Z
尊敬的貢獻者

是的,就像塞巴斯蒂安說。同時,要知道什麼是錯誤的。一個可能的解釋是,罐子不複製到執行器節點。這將是由Sebasitian解決的建議。

yitao
新的貢獻者三世

謝謝你的答案!

兩個後續問題:

  • 有可能包init腳本一起R包本身?我認為理想的腳本應該是獨立的,不需要額外的用戶輸入。它應該算出位置安裝jar在磚集群基於配置文件和(可能)env變量。
  • 如果第一個問題的答案是“是的”,有一個例子R包,解決這種類型的問題successfulyl預包裝的init腳本?

再次非常感謝你的幫助。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map