要使第三方代碼或自定義代碼可用於運行在集群上的筆記本和作業,可以安裝庫。庫可以用Python、Java、Scala和r編寫。您可以上傳Java、Scala和Python庫,並指向PyPI、Maven和CRAN存儲庫中的外部包。

本文主要關注在工作區UI中執行庫任務。方法還可以管理庫庫CLI或者是庫API 2.0

提示

Databricks在Databricks運行時中包含了許多常用庫。要查看Databricks運行時中包含了哪些庫,請參閱係統環境的分段Databricks運行時版本說明為您的Databricks運行時版本。

重要的

Databricks不調用Pythonatexit當你的筆記本或工作完成處理功能。如果您使用注冊的Python庫atexit處理程序,您必須確保您的代碼在退出之前調用所需的函數。

安裝Python蛋已棄用,將在未來的Databricks運行時版本中刪除。使用Python輪或從PyPI安裝包。

可以以三種模式安裝庫:工作區、集群安裝和筆記本作用域。

  • 工作區庫作為本地存儲庫,從中創建集群安裝的庫。工作空間庫可以是您的組織創建的自定義代碼,也可以是您的組織已經標準化的開源庫的特定版本。

  • 集群庫可以被運行在集群上的所有筆記本使用。您可以直接從公共存儲庫(如PyPI或Maven)安裝集群庫,也可以從先前安裝的工作區庫創建集群庫。

  • 可用於Python和R的notebook作用域庫允許您安裝庫並創建以notebook會話為作用域的環境。這些庫不會影響運行在同一集群上的其他筆記本。筆記本範圍的庫不會持久存在,必須為每個會話重新安裝。當需要為特定的筆記本定製環境時,請使用筆記本作用域庫。

本節涵蓋:

Python環境管理

下表概述了可用於在Databricks中安裝Python庫的選項。

請注意

  • 使用magic命令的記事本範圍的庫在Databricks Runtime 7.1及以上版本和Databricks Runtime 7.1 ML及以上版本中默認啟用。看到需求獲取詳細信息。

  • 筆記本範圍的庫和庫實用程序隻在Databricks運行時中可用。

Python包源碼

帶有%pip的記事本作用域庫

帶有庫實用程序的記事本作用域庫(棄用)

集群庫

工作庫喬布斯API

PyPI

使用%皮普安裝.看到例子

使用dbutils.library.installPyPI

選擇PyPI作為源

添加一個新的pypi對象添加到作業庫,並指定字段。

私有PyPI鏡像,如Nexus或Artifactory

使用%皮普安裝——index-url選擇。保密管理是可用的。看到例子

使用dbutils.library.installPyPI並指定回購論點。

不受支持的。

不受支持的。

VCS,如GitHub,具有原始源代碼

使用%皮普安裝並指定存儲庫URL作為包名。看到例子

不受支持的。

選擇PyPI作為源並指定存儲庫URL作為包名。

添加一個新的pypi對象添加到作業庫,並將存儲庫URL指定為字段。

帶有原始源代碼的私有VCS

使用%皮普安裝並指定使用基本身份驗證的存儲庫URL作為包名。保密管理是可用的。看到例子

不受支持的。

不受支持的。

不受支持的。

DBFS

使用%皮普安裝.看到例子

使用dbutils.library. install (dbfs_path)

選擇DBFS/S3作為源

添加一個新的whl對象,並指定DBFS路徑作為字段。

S3

使用%皮普安裝加上一個預先簽名的URL。使用S3協議的路徑s3: / /不受支持。

使用dbutils.library. install (s3_path)

選擇DBFS/S3作為源

添加一個新的whl對象,並將S3路徑指定為字段。