集群庫

集群庫可以被運行在集群上的所有筆記本使用。您可以直接從公共存儲庫(如PyPI或Maven)安裝集群庫,使用以前安裝的工作區庫,或使用init腳本。

在集群上安裝庫

在集群上安裝庫有兩種主要方式:

  • 安裝一個工作區圖書館它已經上傳到工作區。

  • 安裝僅用於特定集群的庫。

此外,如果庫需要自定義配置,則可能無法使用上麵列出的方法安裝它。相反,您可以使用init腳本在創建集群時運行。

請注意

在集群上安裝庫時,已經附加到該集群的筆記本不會立即看到新的庫。你必須首先分離然後重新接上筆記本到集群。

方法在集群上安裝庫,除了本文介紹的方法之外Databricks Terraform提供商而且databricks_library

工作區圖書館

請注意

Databricks按照安裝在集群上的順序處理所有工作區庫。如果庫之間存在依賴關係,則可能需要注意集群上的安裝順序。

要安裝工作區中已經存在的庫,可以從集群UI或庫UI開始:

集群

  1. 點擊計算圖標計算在側欄中。

  2. 單擊集群名稱。

  3. 單擊選項卡。

  4. 點擊安裝新

  5. 在庫源按鈕列表中,選擇工作空間

  6. 選擇一個工作區庫。

  7. 點擊安裝

  8. 配置庫安裝在所有集群上。

    1. 單擊庫。

    2. 選擇在所有集群上自動安裝複選框。

    3. 點擊確認

圖書館

  1. 轉到包含庫的文件夾。

  2. 單擊庫名稱。

  3. 做以下其中一件事:

    • 要配置要安裝在所有集群上的庫,請選擇在所有集群上自動安裝複選框,然後單擊確認

      重要的

      此選項不會在運行Databricks Runtime 7.0及以上版本的集群上安裝庫。

    • 選中要在其上安裝庫的集群旁邊的複選框,然後單擊安裝

庫安裝在集群上。

Cluster-installed圖書館

您可以在特定的集群上安裝庫,而不必將其作為工作區庫使用。

在集群上安裝庫。

  1. 點擊計算圖標計算在側欄中。

  2. 單擊集群名稱。

  3. 單擊選項卡。

  4. 點擊安裝新

  5. 創建對象的方法之一工作區圖書館.點擊之後創建時,庫安裝在集群上。

Init腳本

如果庫需要自定義配置,則可能無法使用工作區或集群庫接口安裝它。相反,您可以使用init腳本

下麵是一個init腳本的例子,它使用pip在Databricks Runtime集群初始化時安裝Python庫。

# !/bin/bash/databricks/python/bin/pip安裝astropy

從集群卸載庫

請注意

從集群卸載庫時,隻有在重新啟動集群時才會刪除該庫。在重新啟動集群之前,已卸載庫的狀態將顯示為卸載等待重新啟動

要卸載一個庫,可以從集群或庫開始:

集群

  1. 點擊計算圖標計算在側欄中。

  2. 單擊集群名稱。

  3. 單擊選項卡。

  4. 選中要從中卸載庫的集群旁邊的複選框,單擊卸載,然後確認.“狀態”變為卸載等待重新啟動

圖書館

  1. 轉到包含庫的文件夾。

  2. 單擊庫名稱。

  3. 選中要從中卸載庫的集群旁邊的複選框,單擊卸載,然後確認.“狀態”變為卸載等待重新啟動

  4. 單擊集群名稱,進入集群詳細信息頁麵。

點擊重新啟動而且確認卸載庫。從集群的Libraries選項卡中刪除庫。

查看集群上安裝的庫

  1. 點擊計算圖標計算在側欄中。

  2. 單擊集群名稱。

  3. 單擊選項卡。對於每個庫,選項卡顯示名稱和版本、類型、安裝狀態,如果上傳,則為源文件。

更新集群安裝的庫

若要更新集群安裝的庫,請卸載舊版本的庫並安裝新版本。