解決:Re: Unittest PySpark -如何讀取XML飛行器……-磚- 12533

Michael_Galli · ‎07-26-2022

編寫單元測試時使用unittest / pytest PySpark,閱讀模型數據源內置數據類型如csv, json (spark.read.format (json))就可以了。

但當讀取XML´s和spark.read.format (“com.databricks.spark.xml”)在單元測試,這並不工作的:

. lang。ClassNotFoundException:沒有找到數據來源:com.databricks.spark.xml。

注意:單元測試不磚集群上運行,但是在當地一個hadoop winutils目錄。

有什麼方法可以實現這個,或者我應該使用一些python內置xml庫嗎?

Michael_Galli · ‎07-26-2022

這是正確的. .以下為我工作:

SparkSession.builder。(. .) . config (“spark.jars。包”、“com.databricks: spark-xml_2.12:0.12.0”)

werners1 · ‎07-26-2022

我猜你在本地運行火花嗎?因為com.databricks.spark。xml是一種庫火花。

這不是默認安裝所以你必須將它添加到您的本地安裝火花。

Michael_Galli · ‎07-26-2022

這是正確的. .以下為我工作:

SparkSession.builder。(. .) . config (“spark.jars。包”、“com.databricks: spark-xml_2.12:0.12.0”)

Hubert_Dudek1 · ‎07-26-2022

請安裝spark-xml從Maven。從Maven是你需要安裝集群中使用集群設置(或者使用API或CLI)

Michael_Galli · ‎07-26-2022

在上麵看到的,我已經找到了解決方案。沒有集群,但是隻有當地引發會話。

磚