取消
顯示的結果
而不是尋找
你的意思是:

SparkFiles——奇怪的行為在Azure磚(運行時10)

Hubert_Dudek1
尊敬的貢獻者三世

當你使用:

從pyspark進口SparkFiles spark.sparkContext.addFile (url)

它將文件添加到非dbfs / local_disk0 /但當你想讀文件:

spark.read.json (SparkFiles.get (“file_name”))

要從/ dbfs / local_disk0 /讀取它。我也試過用文件:/ /和許多其他創造性的方式,它不工作。

當然是工作在使用% sh cp -從/ local_disk0 / / dbfs / local_disk0 /。

這似乎是一個錯誤就像addFile轉向dbfs azure磚但SparkFiles不是(在原始火花addFile和到達/從工人)。

我也找不到任何設置手動指定SparkFiles RootDirectory。

30日回複30.

weldermartins
尊敬的貢獻者
市政廳= " https://servicodados.ibge.gov.br/api/v1/localidades/municipios "從pyspark進口SparkFiles spark.sparkContext.addFile municipiosDF = spark.read(市政廳)。選項(“多行”,真正的)。選項(“模式”、“覆蓋”). json(“文件:/ /”+ SparkFiles.get(“市政廳”))

我沒有理解。

請改變上麵的代碼所指示你。@Kaniz開羅

丙氨酸,

焊機馬丁斯

嗨@welder馬丁斯,您可以讀取JSON文件的URL也用這種方法。

從pyspark。sql進口SparkSession,函數從urllib F。要求進口urlopen火花= SparkSession.builder.getOrCreate () url = ' https://servicodados.ibge.gov.br/api/v1/localidades/municipios ' jsonData = urlopen (url) .read () .decode (“utf - 8”)抽樣= spark.sparkContext.parallelize ([jsonData]) df = spark.read.json(抽樣顯示(df)

Kaniz
社區經理
社區經理

嗨@welder馬丁斯,你也可以試試這個。附件是截圖。請讓我知道如果這是行不通的。

導入請求響應= requests.get (“https://servicodados.ibge.gov.br/api/v1/localidades/municipios”) jsondata = response.json pyspark ()。sql * df = spark.read進口。選項(“多行”,“真正的”). json (sc.parallelize ([jsondata])) df.show ()

截圖2022-01-24 9.44.28點

weldermartins
尊敬的貢獻者

嗨@Kaniz Fatma(磚),它運行沒有錯誤。問題是,SparkFiles並不在Azure平台上工作。Beplay体育安卓版本我從API提取數據與其他功能。我甚至使用URLLIB函數姑息。抽樣將棄用Apache火花的3.0版。

Thak。

weldermartins
尊敬的貢獻者

@Kaniz Fatma你好,你獲得訂單,在磚嗎?這張票是開了2021年12月,到目前為止,他們還沒有評論的最後期限。謝謝。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map