任務反序列化時間很高

配置cluster-installed庫安裝在執行器在集群啟動vs執行人啟動運行加快你的工作任務。

寫的亞當Pavlacka

去年發表在:2023年2月23日

問題

你的任務是運行速度低於預期。

你複習階段的細節火花UI在集群和看到任務反序列化時間高。

火花UI顯示高反序列化任務時間

導致

Cluster-installed庫(AWS|Azure|GCP)隻安裝在司機在集群啟動時。這些庫隻安裝在執行器當第一個任務提交。花費的時間安裝PyPI庫包括在反序列化的任務時間。

刪除

信息

圖書館安裝隻發生在一個執行人,任務是啟動。如果第二個執行人是一項任務,安裝過程重複。安裝庫越多,越明顯的延遲時間,當一個新的遺囑執行人。

解決方案

如果您正在使用大量的PyPI庫,你應該配置集群上安裝庫集群開始時所有的執行人。這個結果在集群啟動時間略有增加,但允許你的工作任務運行得更快,因為你不必等待庫安裝在初始啟動後的執行人。

添加spark.databricks.libraries。enableSparkPyPI假集群的火花配置(AWS|Azure|GCP)並重新啟動集群。

這篇文章有用嗎?