你好,
我現在有一個集群中配置數據磚spark-xml(版本com.databricks: spark-xml_2.12:0.13.0)安裝使用Maven。與Pyspark spark-xml圖書館本身沒問題當我使用它在一個筆記本在磚web。
我經常使用磚與Pyspark發展。更具體地說,使用VS代碼。再次,磚連接沒問題當我spark.read.csv等集群上執行命令。
然而,當我試著運行spark-xml代碼在VS代碼,我收到以下錯誤:
. lang。ClassNotFoundException:沒有找到數據源:xml。請找到包http://spark.apache.org/third-party-projects.html
我已經嚐試使用讀下麵的格式沒有運氣。我也試過把spark-xml jar文件相匹配的版本在磚在我Pyspark jar但又沒有工作。
df = spark.read.format (“xml”) df = spark.read.format (“com.databricks.spark.xml”)
任何想法如何我可以得到當地磚連接venv識別xml數據源會感謝!
謝謝!