當你使用:
從pyspark進口SparkFiles spark.sparkContext.addFile (url)
它將文件添加到非dbfs / local_disk0 /但當你想讀文件:
spark.read.json (SparkFiles.get (“file_name”))
要從/ dbfs / local_disk0 /讀取它。我也試過用文件:/ /和許多其他創造性的方式,它不工作。
當然是工作在使用% sh cp -從/ local_disk0 / / dbfs / local_disk0 /。
這似乎是一個錯誤就像addFile轉向dbfs azure磚但SparkFiles不是(在原始火花addFile和到達/從工人)。
我也找不到任何設置手動指定SparkFiles RootDirectory。