庫
要使在群集上運行的筆記本電腦和作業可用的第三方或自定義代碼,您可以安裝庫。可以用Python,Java,Scala和R編寫庫。您可以上傳Java,Scala和Python庫,並指向PYPI,MAVEN和CRAN存儲庫中的外部軟件包。
本文重點是在工作區UI中執行庫任務。您也可以使用圖書館CLI或者庫API 2.0。
提示
Databricks在Databricks運行時包含許多常見的庫。要查看Databricks運行時包含哪些庫,請查看係統環境小節Databricks運行時發行注釋適用於您的數據映射版本。
重要的
Databricks不調用Pythonatexit
筆記本或作業完成處理時功能。如果您使用注冊的Python庫atexit
處理程序,您必須在退出之前確保代碼調用所需的功能。
您可以以三種模式安裝庫:工作空間,安裝群集和筆記本電腦。
- 工作區庫作為本地存儲庫,您可以從中創建群集安裝的庫。工作區庫可能是您的組織創建的自定義代碼,也可能是您組織已標準化的開源庫的特定版本。
- 集群庫可以在集群上運行的所有筆記本電腦使用。您可以直接從PYPI或MAVEN等公共存儲庫中安裝群集庫,也可以從先前安裝的工作區庫中創建一個庫。
- 可用於Python和R的筆記本電腦庫庫,允許您安裝庫並創建一個範圍內的筆記本電腦會話的環境。這些庫不影響在同一集群上運行的其他筆記本。筆記本電腦分配的庫不持續,必須重新安裝每個會話。當您需要特定筆記本的自定義環境時,請使用筆記本庫庫。
本節涵蓋:
Python環境管理
下表提供了可以使用Databricks安裝Python庫的選項的概述。
筆記
- 默認情況下,使用魔法命令的筆記本庫庫是在Databricks運行時7.1及更高版本,Databricks運行時7.1 ml及更高版本,以及基因組學及更高版本的Databricks Runtime 7.1。它們還可以使用Databricks運行時的配置設置6.4毫升至7.0 mL和Databricks運行時6.4用於基因組學的基因組運行時7.0用於基因組學。看要求有關詳細信息。
- 帶有圖書館實用程序的筆記本庫僅在Databricks運行時可用。它們在Databricks運行時ML或Databricks運行時沒有用於基因組學。
Python軟件包來源 | 帶有%pip的筆記本庫庫 | 帶有圖書館實用程序的筆記本庫庫 | 集群庫 | 職位庫和Jobs API |
---|---|---|---|---|
PYPI | 采用%pip安裝 。看例子。 |
采用dbutils.library .installPypi 。 |
選擇PYPI作為來源。 | 添加新PYPI 反對作業庫,並指定包裹 場地。 |
私人PYPI鏡子,例如Nexus或Artifactory | 采用%pip安裝 與- index-url 選項。秘密管理可用。看例子。 |
采用dbutils.library .installPypi 並指定回購 爭論。 |
不支持。 | 不支持。 |
VC,例如GitHub,帶有原始源 | 采用%pip安裝 並將存儲庫URL指定為軟件包名稱。看例子。 |
不支持。 | 選擇PYPI作為來源並將存儲庫URL指定為軟件包名稱。 | 添加新PYPI 反對作業庫,並將存儲庫URL指定為包裹 場地。 |
帶有原始資源的私人風險投資 | 采用%pip安裝 並用基本身份驗證作為軟件包名稱指定存儲庫URL。秘密管理可用。看例子。 |
不支持。 | 不支持。 | 不支持。 |
DBFS | 采用%pip安裝 。看例子。 |
采用dbutils.library .install(dbfs_path) 。 |
選擇DBFS/S3作為來源。 | 添加新蛋 或者whl 反對作業庫,並指定DBFS路徑為包裹 場地。 |
S3 | 采用%pip安裝 與預先簽名的URL一起。帶有S3協議的路徑S3:// 不支持。 |
采用dbutils.library .install(s3_path) 。 |
選擇DBFS/S3作為來源。 | 添加新蛋 或者whl 反對作業庫,並將S3路徑指定為包裹 場地。 |