解決:SparkFiles -奇怪行為Azure磚……頁5 -磚- 33725

Hubert_Dudek1 · ‎12-06-2021

當你使用:

從pyspark進口SparkFiles spark.sparkContext.addFile (url)

它將文件添加到非dbfs / local_disk0 /但當你想讀文件:

spark.read.json (SparkFiles.get (“file_name”))

要從/ dbfs / local_disk0 /讀取它。我也試過用文件:/ /和許多其他創造性的方式,它不工作。

當然是工作在使用% sh cp -從/ local_disk0 / / dbfs / local_disk0 /。

這似乎是一個錯誤就像addFile轉向dbfs azure磚但SparkFiles不是(在原始火花addFile和到達/從工人)。

我也找不到任何設置手動指定SparkFiles RootDirectory。

weldermartins · ‎01-24-2022

市政廳= " https://servicodados.ibge.gov.br/api/v1/localidades/municipios "從pyspark進口SparkFiles spark.sparkContext.addFile municipiosDF = spark.read(市政廳)。選項(“多行”,真正的)。選項(“模式”、“覆蓋”). json(“文件:/ /”+ SparkFiles.get(“市政廳”))

我沒有理解。

請改變上麵的代碼所指示你。@Kaniz開羅

丙氨酸,

焊機馬丁斯

Kaniz · ‎01-24-2022

嗨@welder馬丁斯,您可以讀取JSON文件的URL也用這種方法。

從pyspark。sql進口SparkSession,函數從urllib F。要求進口urlopen火花= SparkSession.builder.getOrCreate () url = ' https://servicodados.ibge.gov.br/api/v1/localidades/municipios ' jsonData = urlopen (url) .read () .decode (“utf - 8”)抽樣= spark.sparkContext.parallelize ([jsonData]) df = spark.read.json(抽樣顯示(df)

Kaniz · ‎01-24-2022

嗨@welder馬丁斯,你也可以試試這個。附件是截圖。請讓我知道如果這是行不通的。

導入請求響應= requests.get (“https://servicodados.ibge.gov.br/api/v1/localidades/municipios”) jsondata = response.json pyspark ()。sql * df = spark.read進口。選項(“多行”,“真正的”). json (sc.parallelize ([jsondata])) df.show ()

weldermartins · ‎01-24-2022

嗨@Kaniz Fatma(磚),它運行沒有錯誤。問題是,SparkFiles並不在Azure平台上工作。Beplay体育安卓版本我從API提取數據與其他功能。我甚至使用URLLIB函數姑息。抽樣將棄用Apache火花的3.0版。

Thak。

weldermartins · ‎01-25-2022

@Kaniz Fatma你好,你獲得訂單,在磚嗎?這張票是開了2021年12月,到目前為止,他們還沒有評論的最後期限。謝謝。

磚

SparkFiles——奇怪的行為在Azure磚(運行時10)