庫不可用導致工作失敗

本文解釋了導入時可能會遇到的錯誤啟動工作,導入外部庫。

問題

工作原因節點重新啟動時,工作失敗,並顯示以下錯誤消息:

ImportError:沒有模塊名為XXX

導致

集群管理器是磚的一部分服務管理客戶Apache火花集群。它發送命令來安裝Python和R庫時每個節點重啟。有時,圖書館安裝或從網上下載的工件可以比預期更多的時間。這發生由於網絡延遲,或者發生如果被連接到集群的圖書館有許多依賴庫。

圖書館安裝機製保證筆記本連接到一個集群時,它可以導入安裝庫。當庫安裝在PyPI花過多的時間,圖書館前的筆記本連接到集群安裝完成。在這種情況下,筆記本無法導入庫。

解決方案

方法1

在筆記本上使用notebook-scoped庫安裝命令。您可以輸入以下命令在一個細胞,它確保所有安裝指定的庫。

dbutils.library.installPyPI(“mlflow”)dbutils.library.restartPython()

方法2

為了避免延遲從網上下載的庫存儲庫,您可以緩存庫DBFS和S3。

例如,您可以下載Python庫的車輪或蛋文件DBFS或S3的位置。您可以使用REST API或集群級init腳本安裝庫DBFS或S3。

首先,從互聯網下載車輪或蛋文件DBFS和S3的位置。這可以在一個筆記本如下:

% shcd圖書館/ dbfs / mnt / wget < whl /蛋從pypi存儲庫文件位置>

輪或蛋文件下載完成後,您可以安裝圖書館集群使用REST API, UI,或init腳本命令。