當你使用:
從pyspark進口SparkFiles spark.sparkContext.addFile (url)
它將文件添加到非dbfs / local_disk0 /但當你想讀文件:
spark.read.json (SparkFiles.get (“file_name”))
要從/ dbfs / local_disk0 /讀取它。我也試過用文件:/ /和許多其他創造性的方式,它不工作。
當然是工作在使用% sh cp -從/ local_disk0 / / dbfs / local_disk0 /。
這似乎是一個錯誤就像addFile轉向dbfs azure磚但SparkFiles不是(在原始火花addFile和到達/從工人)。
我也找不到任何設置手動指定SparkFiles RootDirectory。
市政廳= " https://servicodados.ibge.gov.br/api/v1/localidades/municipios "從pyspark進口SparkFiles spark.sparkContext.addFile municipiosDF = spark.read(市政廳)。選項(“多行”,真正的)。選項(“模式”、“覆蓋”). json(“文件:/ /”+ SparkFiles.get(“市政廳”))
我沒有理解。
請改變上麵的代碼所指示你。@Kaniz開羅
丙氨酸,
焊機馬丁斯
嗨@welder馬丁斯,您可以讀取JSON文件的URL也用這種方法。
從pyspark。sql進口SparkSession,函數從urllib F。要求進口urlopen火花= SparkSession.builder.getOrCreate () url = ' https://servicodados.ibge.gov.br/api/v1/localidades/municipios ' jsonData = urlopen (url) .read () .decode (“utf - 8”)抽樣= spark.sparkContext.parallelize ([jsonData]) df = spark.read.json(抽樣顯示(df)