背景:我正在寫一個試點項目,評估使用磚訓練模型的利弊使用r .我使用一個數據集,占地約5.7 gb的內存當加載到一個熊貓dataframe。統一的數據存儲在一個三角洲表目錄。
問題:我可以使用python收集()的數據(pyspark)在大約2分鍾。然而,當我試圖使用sparklyr收集相同的數據集在R ~ 2.5天後仍運行的命令。我不能將數據加載到DBFS第一因為我們需要更嚴格的比DBFS將允許數據訪問控製。下麵是截圖的細胞,我跑到收集()的數據在Python和R。
我希望我隻是缺少一些關於如何sparklyr加載數據。
這是細胞使用pyspark裝載數據,可以看到,花了2.04分鍾來完成:
這是細胞使用sparklyr裝載數據,您可以看到,我取消後2.84天:
我也試著用“sparklyr:: spark_read_table”功能,但我有一個錯誤的表或視圖了main.databricks_……”我認為這一定是因為表在metastore由統一目錄管理。
環境信息:
LTS磚運行時:10.4
司機節點大小:140 gb內存和20個核
工作者節點:1工人節點與56個gb的內存和8芯。
R庫安裝:箭頭,sparklyr SparkR dplyr