編寫單元測試時使用unittest / pytest PySpark,閱讀模型數據源內置數據類型如csv, json (spark.read.format (json))就可以了。
但當讀取XML´s和spark.read.format (“com.databricks.spark.xml”)在單元測試,這並不工作的:
. lang。ClassNotFoundException:沒有找到數據來源:com.databricks.spark.xml。
注意:單元測試不磚集群上運行,但是在當地一個hadoop winutils目錄。
有什麼方法可以實現這個,或者我應該使用一些python內置xml庫嗎?
這是正確的. .以下為我工作:
SparkSession.builder。(. .) . config (“spark.jars。包”、“com.databricks: spark-xml_2.12:0.12.0”)
這是正確的. .以下為我工作:
SparkSession.builder。(. .) . config (“spark.jars。包”、“com.databricks: spark-xml_2.12:0.12.0”)
請安裝spark-xml從Maven。從Maven是你需要安裝集群中使用集群設置(或者使用API或CLI)
在上麵看到的,我已經找到了解決方案。沒有集群,但是隻有當地引發會話。