取消
顯示的結果
而不是尋找
你的意思是:

收集()的荷蘭國際集團(ing) R的大型數據集

acsmaggart
新的貢獻者三世

背景:我正在寫一個試點項目,評估使用磚訓練模型的利弊使用r .我使用一個數據集,占地約5.7 gb的內存當加載到一個熊貓dataframe。統一的數據存儲在一個三角洲表目錄。

問題:我可以使用python收集()的數據(pyspark)在大約2分鍾。然而,當我試圖使用sparklyr收集相同的數據集在R ~ 2.5天後仍運行的命令。我不能將數據加載到DBFS第一因為我們需要更嚴格的比DBFS將允許數據訪問控製。下麵是截圖的細胞,我跑到收集()的數據在Python和R。

我希望我隻是缺少一些關於如何sparklyr加載數據。

這是細胞使用pyspark裝載數據,可以看到,花了2.04分鍾來完成:使用pyspark收集數據

這是細胞使用sparklyr裝載數據,您可以看到,我取消後2.84天:

收集數據使用R

我也試著用“sparklyr:: spark_read_table”功能,但我有一個錯誤的表或視圖了main.databricks_……”我認為這一定是因為表在metastore由統一目錄管理。

環境信息:

LTS磚運行時:10.4

司機節點大小:140 gb內存和20個核

工作者節點:1工人節點與56個gb的內存和8芯。

R庫安裝:箭頭,sparklyr SparkR dplyr

5回複5

Vidula_Khanna
主持人
主持人

嗨@Max Taggart

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map