問題
你的任務是運行速度低於預期。
你複習階段的細節火花UI在集群和看到任務反序列化時間高。
導致
Cluster-installed庫(AWS|Azure|GCP)隻安裝在司機在集群啟動時。這些庫隻安裝在執行器當第一個任務提交。花費的時間安裝PyPI庫包括在反序列化的任務時間。
解決方案
如果您正在使用大量的PyPI庫,你應該配置集群上安裝庫集群開始時所有的執行人。這個結果在集群啟動時間略有增加,但允許你的工作任務運行得更快,因為你不必等待庫安裝在初始啟動後的執行人。
添加spark.databricks.libraries。enableSparkPyPI假集群的火花配置(AWS|Azure|GCP)並重新啟動集群。