作業執行

這些文章可以幫助您調優和排除Apache火花作業執行。

3這類文章

增加每階段的任務

當使用spark-xml包,您可以增加任務的數量每階段spark.hadoop.mapred.max.split通過更改配置設置。集群中的大小到一個較低的值的火花配置(AWS | Azure)。這個配置設置控製輸入塊大小。當數據從DBFS讀取,它分為輸入模塊,然後……

最後更新:2022年5月11日,通過亞當Pavlacka

最大執行上下文或筆記本連接限製

問題的筆記本或作業執行停止並返回下列錯誤:運行結果不可用:作業失敗與錯誤消息上下文ExecutionContextId(1731742567765160237)斷開連接。不能把這個筆記本因為集群已達到連接筆記本的極限。分離一個筆記本並重試。因為當你把一個noteboo…

最後更新:2022年5月11日,通過亞當Pavlacka

序列化任務太大

如果你看到下錯誤消息,你可以修複這個錯誤通過改變引發配置(AWS | Azure)當你開始集群。序列化任務XXX: XXX是XXX字節,超過最大允許:spark.rpc.message。最大尺寸(XXX字節)。考慮增加spark.rpc.message。最大尺寸或使用廣播變量為大值。改變……

最後更新:2022年5月11日,通過亞當Pavlacka