取消
顯示的結果
而不是尋找
你的意思是:

spark-xml不使用磚和Pyspark連接

brendan-b
新的貢獻者二世

你好,

我現在有一個集群中配置數據磚spark-xml(版本com.databricks: spark-xml_2.12:0.13.0)安裝使用Maven。與Pyspark spark-xml圖書館本身沒問題當我使用它在一個筆記本在磚web。

我經常使用磚與Pyspark發展。更具體地說,使用VS代碼。再次,磚連接沒問題當我spark.read.csv等集群上執行命令。

然而,當我試著運行spark-xml代碼在VS代碼,我收到以下錯誤:

. lang。ClassNotFoundException:沒有找到數據源:xml。請找到包http://spark.apache.org/third-party-projects.html

我已經嚐試使用讀下麵的格式沒有運氣。我也試過把spark-xml jar文件相匹配的版本在磚在我Pyspark jar但又沒有工作。

df = spark.read.format (“xml”) df = spark.read.format (“com.databricks.spark.xml”)

任何想法如何我可以得到當地磚連接venv識別xml數據源會感謝!

謝謝!

4回複4

Kaniz
社區經理
社區經理

你好@brendan-b用戶名!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

sean_owen
尊敬的貢獻者二世
尊敬的貢獻者二世

你添加spark-xml依賴“本地”?你做的是對的,數據源的名稱並不重要。兩者都是正確的。你不需要手動安裝jar。

brendan-b
新的貢獻者二世

@Sean歐文我不相信我。你有任何文檔如何安裝spark-xml本地?我已經嚐試以下沒有運氣。這是你指的是什麼?

PYSPARK_HOME / bin / pyspark——包com.databricks: spark-xml_2.12:0.13.0

Kaniz
社區經理
社區經理

嗨@Brendan班菲爾德,這文章描述如何讀和寫一個XML文件作為一個Apache火花™數據源。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map