spark-xml不使用磚連接和…-磚- 13802

brendan-b · ‎10-09-2021

你好,

我現在有一個集群中配置數據磚spark-xml(版本com.databricks: spark-xml_2.12:0.13.0)安裝使用Maven。與Pyspark spark-xml圖書館本身沒問題當我使用它在一個筆記本在磚web。

我經常使用磚與Pyspark發展。更具體地說,使用VS代碼。再次,磚連接沒問題當我spark.read.csv等集群上執行命令。

然而,當我試著運行spark-xml代碼在VS代碼,我收到以下錯誤:

. lang。ClassNotFoundException:沒有找到數據源:xml。請找到包http://spark.apache.org/third-party-projects.html

我已經嚐試使用讀下麵的格式沒有運氣。我也試過把spark-xml jar文件相匹配的版本在磚在我Pyspark jar但又沒有工作。

df = spark.read.format (“xml”) df = spark.read.format (“com.databricks.spark.xml”)

任何想法如何我可以得到當地磚連接venv識別xml數據源會感謝!

謝謝!

Kaniz · ‎10-10-2021

你好@brendan-b用戶名!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

sean_owen · ‎10-10-2021

你添加spark-xml依賴“本地”?你做的是對的,數據源的名稱並不重要。兩者都是正確的。你不需要手動安裝jar。

brendan-b · ‎10-10-2021

@Sean歐文我不相信我。你有任何文檔如何安裝spark-xml本地?我已經嚐試以下沒有運氣。這是你指的是什麼?

PYSPARK_HOME / bin / pyspark——包com.databricks: spark-xml_2.12:0.13.0

Kaniz · ‎05-18-2022

嗨@Brendan班菲爾德,這文章描述如何讀和寫一個XML文件作為一個Apache火花™數據源。

磚