解決:dataframe.rdd.isEmpty()拋出錯誤9.1 L…-磚- 31429

thushar · ‎01-18-2022

加載和5列成dataframe csv文件,然後添加15 +使用dataframe列。withColumn方法。

添加這些列之後,當我運行查詢df.rdd.isEmpty()——把下麵的錯誤。

org.apache.spark。SparkException:工作階段失敗而終止:任務0階段32.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 32.0 (TID 28)(10.139.64.4執行人9):ExecutorLostFailure(執行人9退出正在運行的任務之一所致)原因:遠程RPC客戶端沒有關聯的。可能由於容器超過閾值,或網絡問題。檢查驅動程序日誌來警告消息。

知道是什麼問題嗎?

Hubert_Dudek1 · ‎01-20-2022

請檢查你的記錄,因為它可以一些其他問題。

也請檢查使用布爾值(df.head (1))。

在原帖子查看解決方案

匿名 · ‎01-19-2022

你好再次,@Thushar R -我很抱歉聽到你有這種困難。讓我們給社區回應的機會。提前感謝你的耐心。

Hubert_Dudek1 · ‎01-20-2022

請檢查你的記錄,因為它可以一些其他問題。

也請檢查使用布爾值(df.head (1))。

thushar · ‎01-20-2022

謝謝你的解決方案。但是為什麼這個特定的代碼不能在9.0 LTS運行時,運行在8.3沒有問題。任何想法。請參見下麵的代碼。

從pyspark.sql。功能導入點燃、坳row_number、地板、裝飾

df = spark.read。選項(“頭”,“真正的”). csv (filePath)

df2 = df.select(坳(cc)、坳(ac)、坳(“的”),\

坳(ag)、坳(“”)).distinct ()

lstOfMissingColumns = [‘col1’,‘col2’,‘col3’,‘col4’,‘col5’,‘col6’,‘col7’,‘col8’,‘col8’,‘col9’,‘col9’,‘col10’,‘col11’,‘col12’,‘col13’,

“col14”、“col15’,‘col16’,‘col17’)

對於c lstOfMissingColumns:

df2 = df2.withColumn (c,點燃("))

df2.rdd.isEmpty ()

jose_gonzalez · ‎02-23-2022

嗨@Thushar R,

你使用相同的CSV文件嗎?

錯誤信息是

“遠程RPC客戶機沒有關聯。可能由於容器超過閾值,或網絡問題。檢查驅動程序日誌警告消息”,這可能是一個伯父錯誤。你的CSV文件有多大?你檢查執行者的9日誌嗎?

磚

在9.1 LTS dataframe.rdd.isEmpty()拋出錯誤