增加每階段的任務

學習如何增加任務的數量每階段當使用spark-xml包磚。

寫的亞當Pavlacka

去年發表在:2022年5月11日

當使用spark-xml包,你可以增加任務的數量每階段通過更改配置設置spark.hadoop.mapred.max.split.size集群中的一個較低的值火花配置(AWS|Azure)。這個配置設置控製輸入塊大小。從DBFS讀寫數據時,它分為輸入模塊,然後發送到不同的執行人。這個配置控製這些輸入塊的大小。默認情況下,它為128 MB(128000000字節)。

設置這個值在筆記本上spark.conf.set ()不是有效的。

在以下的示例中,火花配置字段顯示輸入塊大小是32 MB。