加載和5列成dataframe csv文件,然後添加15 +使用dataframe列。withColumn方法。
添加這些列之後,當我運行查詢df.rdd.isEmpty()——把下麵的錯誤。
org.apache.spark。SparkException:工作階段失敗而終止:任務0階段32.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 32.0 (TID 28)(10.139.64.4執行人9):ExecutorLostFailure(執行人9退出正在運行的任務之一所致)原因:遠程RPC客戶端沒有關聯的。可能由於容器超過閾值,或網絡問題。檢查驅動程序日誌來警告消息。
知道是什麼問題嗎?
謝謝你的解決方案。但是為什麼這個特定的代碼不能在9.0 LTS運行時,運行在8.3沒有問題。任何想法。請參見下麵的代碼。
從pyspark.sql。功能導入點燃、坳row_number、地板、裝飾
df = spark.read。選項(“頭”,“真正的”). csv (filePath)
df2 = df.select(坳(cc)、坳(ac)、坳(“的”),\
坳(ag)、坳(“”)).distinct ()
lstOfMissingColumns = [‘col1’,‘col2’,‘col3’,‘col4’,‘col5’,‘col6’,‘col7’,‘col8’,‘col8’,‘col9’,‘col9’,‘col10’,‘col11’,‘col12’,‘col13’,
“col14”、“col15’,‘col16’,‘col17’)
對於c lstOfMissingColumns:
df2 = df2.withColumn (c,點燃("))
df2.rdd.isEmpty ()
嗨@Thushar R,
你使用相同的CSV文件嗎?
錯誤信息是
“遠程RPC客戶機沒有關聯。可能由於容器超過閾值,或網絡問題。檢查驅動程序日誌警告消息”,這可能是一個伯父錯誤。你的CSV文件有多大?你檢查執行者的9日誌嗎?