要使在群集上運行的筆記本電腦和作業可用的第三方或自定義代碼,您可以安裝庫。可以用Python,Java,Scala和R編寫庫。您可以上傳Java,Scala和Python庫,並指向PYPI,MAVEN和CRAN存儲庫中的外部軟件包。

本文重點是在工作區UI中執行庫任務。您也可以使用圖書館CLI或者庫API 2.0

提示

Databricks在Databricks運行時包含許多常見的庫。要查看Databricks運行時包含哪些庫,請查看係統環境小節Databricks運行時發行注釋適用於您的數據映射版本。

重要的

Databricks不調用Pythonatexit筆記本或作業完成處理時功能。如果您使用注冊的Python庫atexit處理程序,您必須在退出之前確保代碼調用所需的功能。

您可以以三種模式安裝庫:工作空間,安裝群集和筆記本電腦。

  • 工作區庫作為本地存儲庫,您可以從中創建群集安裝的庫。工作區庫可能是您的組織創建的自定義代碼,也可能是您組織已標準化的開源庫的特定版本。
  • 集群庫可以在集群上運行的所有筆記本電腦使用。您可以直接從PYPI或MAVEN等公共存儲庫中安裝群集庫,也可以從先前安裝的工作區庫中創建一個庫。
  • 可用於Python和R的筆記本電腦庫庫,允許您安裝庫並創建一個範圍內的筆記本電腦會話的環境。這些庫不影響在同一集群上運行的其他筆記本。筆記本電腦分配的庫不持續,必須重新安裝每個會話。當您需要特定筆記本的自定義環境時,請使用筆記本庫庫。

本節涵蓋:

Python環境管理

下表提供了可以使用Databricks安裝Python庫的選項的概述。

筆記

  • 默認情況下,使用魔法命令的筆記本庫庫是在Databricks運行時7.1及更高版本,Databricks運行時7.1 ml及更高版本,以及基因組學及更高版本的Databricks Runtime 7.1。它們還可以使用Databricks運行時的配置設置6.4毫升至7.0 mL和Databricks運行時6.4用於基因組學的基因組運行時7.0用於基因組學。看要求有關詳細信息。
  • 帶有圖書館實用程序的筆記本庫僅在Databricks運行時可用。它們在Databricks運行時ML或Databricks運行時沒有用於基因組學。
Python軟件包來源 帶有%pip的筆記本庫庫 帶有圖書館實用程序的筆記本庫庫 集群庫 職位庫Jobs API
PYPI 采用%pip安裝。看例子 采用dbutils.library.installPypi 選擇PYPI作為來源 添加新PYPI反對作業庫,並指定包裹場地。
私人PYPI鏡子,例如Nexus或Artifactory 采用%pip安裝- index-url選項。秘密管理可用。看例子 采用dbutils.library.installPypi並指定回購爭論。 不支持。 不支持。
VC,例如GitHub,帶有原始源 采用%pip安裝並將存儲庫URL指定為軟件包名稱。看例子 不支持。 選擇PYPI作為來源並將存儲庫URL指定為軟件包名稱。 添加新PYPI反對作業庫,並將存儲庫URL指定為包裹場地。
帶有原始資源的私人風險投資 采用%pip安裝並用基本身份驗證作為軟件包名稱指定存儲庫URL。秘密管理可用。看例子 不支持。 不支持。 不支持。
DBFS 采用%pip安裝。看例子 采用dbutils.library.install(dbfs_path) 選擇DBFS/S3作為來源 添加新或者whl反對作業庫,並指定DBFS路徑為包裹場地。
S3 采用%pip安裝與預先簽名的URL一起。帶有S3協議的路徑S3://不支持。 采用dbutils.library.install(s3_path) 選擇DBFS/S3作為來源 添加新或者whl反對作業庫,並將S3路徑指定為包裹場地。