請建議最好的集群配置下麵的用例說明和技巧解決如下所示的錯誤
用例:
可能有4或5火花並發運行的工作。
每個工作40讀取輸入文件和吐120輸出文件在csv firmat s3(三次輸入文件)
所有並發工作讀相同的39個輸入文件,隻是一個文件有變化的工作
通常工作失敗有以下錯誤:
工作階段失敗而終止:任務0階段3084.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 3084.0 (TID ....、ip……,executor 0): org.apache.spark.SparkExecution: Task failed while writing rows
工作階段失敗而終止:任務0階段3078.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 3078.0 (TID ....、ip……,executor 0): java.io.interruptedExecution: getFileStatus on s3:
下麵是我的spark_conf
新的SparkConf ()
這裏(“火花。序列化器”,名為[KryoSerializer] . getname classOf)
這裏(“spark.hadoop.fs.s3z。impl”、“org.apache.hadoop.fs.s3a.s3AFileSystem”)
這裏(“spark.hadoop.fs.s3a.connection。最大",400)
這裏(“fs.s3a.threads.max”, 200年)
這裏(“spark.hadoop.fs.s3a.fast.upload”,真的)
火花UI,環境部分所示
spark.hadoop.fs.s3a.connection。最大= 200
fs.s3a.threads。max = 136
和我的設置,不對齊
問題:
(1)需要做什麼為緩存讀取輸入文件,後續使用並發工作?存儲優化,δ緩存集群配置呢
(2)為什麼開SparkUI環境中的數字與我火花配置設置
(3)如何解決這些工作錯誤
謝謝,
三角