增加每個階段的任務數量

了解使用Databricks使用SPARK-XML軟件包時,如何增加每個階段的任務數。

寫的亞當·帕夫拉卡(Adam Pavlacka)

上次出版於:2022年5月11日

使用時Spark-XML軟件包,您可以通過更改配置設置來增加每個階段的任務數spark.hadoop.mapred.max.split.size集群的價值較低火花配置((AWS|天藍色)。此配置設置控製輸入塊大小。從DBF讀取數據時,將其分為輸入塊,然後將其發送給其他執行者。此配置控製這些輸入塊的大小。默認情況下,它是128 MB(128000000字節)。

在筆記本中設置此值spark.conf.set()無效。

在下麵的示例中,火花配置字段顯示輸入塊大小為32 MB。