庫
要使第三方代碼或自定義代碼可用於運行在集群上的筆記本和作業,可以安裝庫。庫可以用Python、Java、Scala和r編寫。您可以上傳Java、Scala和Python庫,並指向PyPI、Maven和CRAN存儲庫中的外部包。
本文主要關注在工作區UI中執行庫任務。方法還可以管理庫庫CLI或者是庫API 2.0.
提示
Databricks在Databricks運行時中包含了許多常用庫。要查看Databricks運行時中包含了哪些庫,請參閱係統環境的分段Databricks運行時版本說明為您的Databricks運行時版本。
重要的
Databricks不調用Pythonatexit
當你的筆記本或工作完成處理功能。如果您使用注冊的Python庫atexit
處理程序,您必須確保您的代碼在退出之前調用所需的函數。
安裝Python蛋已棄用,將在未來的Databricks運行時版本中刪除。使用Python輪或從PyPI安裝包。
可以以三種模式安裝庫:工作區、集群安裝和筆記本作用域。
工作區庫作為本地存儲庫,從中創建集群安裝的庫。工作空間庫可以是您的組織創建的自定義代碼,也可以是您的組織已經標準化的開源庫的特定版本。
集群庫可以被運行在集群上的所有筆記本使用。您可以直接從公共存儲庫(如PyPI或Maven)安裝集群庫,也可以從先前安裝的工作區庫創建集群庫。
可用於Python和R的notebook作用域庫允許您安裝庫並創建以notebook會話為作用域的環境。這些庫不會影響運行在同一集群上的其他筆記本。筆記本範圍的庫不會持久存在,必須為每個會話重新安裝。當需要為特定的筆記本定製環境時,請使用筆記本作用域庫。
本節涵蓋:
Python環境管理
下表概述了可用於在Databricks中安裝Python庫的選項。
請注意
使用magic命令的記事本範圍的庫在Databricks Runtime 7.1及以上版本和Databricks Runtime 7.1 ML及以上版本中默認啟用。看到需求獲取詳細信息。
筆記本範圍的庫和庫實用程序隻在Databricks運行時中可用。
Python包源碼 |
帶有庫實用程序的記事本作用域庫(棄用) |
|||
---|---|---|---|---|
PyPI |
使用 |
使用 |
選擇PyPI作為源. |
添加一個新的 |
私有PyPI鏡像,如Nexus或Artifactory |
使用 |
不受支持的。 |
不受支持的。 |
|
VCS,如GitHub,具有原始源代碼 |
使用 |
不受支持的。 |
選擇PyPI作為源並指定存儲庫URL作為包名。 |
添加一個新的 |
帶有原始源代碼的私有VCS |
不受支持的。 |
不受支持的。 |
不受支持的。 |
|
DBFS |
使用 |
使用 |
選擇DBFS/S3作為源. |
添加一個新的 |
S3 |
使用 |
使用 |
選擇DBFS/S3作為源. |
添加一個新的 |