嗨@Marcel windblown市,它是不尋常的read_xlsx()函數從readxl包花了這麼長時間閱讀一個相對較小的Excel文件。可能有幾個原因這個性能問題,包括集群配置、可用資源,或潛在的文件存儲。
這裏有一些建議可能診斷和解決性能問題:
使用以下命令將文件從DBFS複製到本地文件係統:
% fs cp dbfs: /道路/ /你/ excel_file / tmp / local_excel_file
然後,在R代碼,讀取本地文件:
庫(readxl) df < - read_xlsx (“/ tmp / local_excel_file”)
包或一個更普遍的問題。請記住,您可能需要安裝這些庫如果他們不是已經可用的集群。
請注意,R在磚是在容器中運行的,和它的性能可能不同於你們當地的R安裝。同時,請記住,R環境數據磚的性能可能不是PySpark環境優化,這是原產於磚。如果性能問題持續下去,考慮使用PySpark閱讀和處理數據。