使用帳戶控製台創建和管理工作區

工作區是雲服務帳戶中的Databricks部署。它為指定的一組用戶提供了使用Databricks資產的統一環境。本文描述了如何創建和管理工作區。

請注意

Databricks對使用Databricks單元(DBUs)中的Databricks收費。工作負載消耗的DBUs數量取決於許多因素,包括Databricks計算類型(多用途或工作)和穀歌雲機類型。詳細信息請參見定價頁.如果您對價格有疑問,請聯係Databricks代表。

您的穀歌雲賬戶會產生額外的費用:

  • 穀歌Cloud向您收取Databricks為Databricks基礎設施在您的帳戶中創建的GKE集群的每個工作空間的額外費用。截至2021年3月30日,該GKE集群的成本約為200美元/月,與GKE集群運行的天數成比例。價格可以變化,所以檢查最新的價格

  • 即使Databricks集群空閑,GKE集群成本也會生效。為減少此空閑時間成本,如果Databricks Runtime集群五天內沒有活動,Databricks將刪除帳戶中的GKE集群。其他資源如VPC、GCS桶等保持不變。下一次Databricks Runtime集群啟動時,Databricks將重新創建GKE集群,這將增加初始Databricks Runtime集群啟動時間。對於刪除GKE集群如何降低每月成本的示例,假設您在每月的第一天使用了Databricks Runtime集群,但在每月的其餘時間都沒有使用:您的GKE使用量將是空閑超時生效前的五天,沒有其他時間,每月成本約為33美元。

Databricks不支持對正在運行的GKE集群進行配置更改。如果您在創建GKE集群配置後自定義該集群,並且該集群由於空閑超時而被刪除,則重新創建的集群將不包括您的自定義。

使用帳戶控製台創建工作空間

您可以使用帳戶控製台創建一個工作區。在創建新工作空間之前,請確保了解所有配置設置。在嚐試創建工作空間之後,您無法修改工作空間配置。

重要的

要創建工作空間,您的帳戶上必須有一些必需的穀歌權限,可以是穀歌賬戶或者一個服務帳戶.看到需要的權限

創建一個工作區:

  1. 為你的新工作空間選擇一個網絡類型:

  2. 以Databricks帳戶所有者或admin帳戶登錄賬戶控製台然後點擊工作區圖標。這是帳戶控製台默認視圖。

  3. 點擊創建工作區

    創建工作區
  4. 工作區名稱字段,為該工作區輸入一個人類可讀的名稱。名稱隻能由數字、字母、“_”和“-”組成,長度為3 ~ 30個字符。

  5. 地區字段,為工作區的網絡和集群選擇一個區域。有關受支持區域的列表,請參見支持的Databricks區域

  6. 穀歌雲項目ID字段,輸入您的穀歌雲項目ID。要了解如何獲取項目ID,請參見需求

    如果你計劃使用customer-managed VPC對於這個工作區:

    • 如果是獨立的VPC,設置為VPC的項目ID。

    • 如果是共享VPC,將此設置為此工作區資源的項目ID。

  7. 網絡設置。此步驟因工作空間的網絡類型而異。

    對於由客戶管理的VPC,單擊Customer-managed VPC選項卡。

    • 可選地指定自定義子網大小。如果將這些字段保留為空,Databricks將使用默認值。

      重要的

      正確配置Databricks工作空間使用的GKE子網。您不能在部署工作區之後更改它們。如果Databricks子網的地址範圍太小,則工作空間將耗盡其IP空間,從而導致Databricks作業失敗。要確定所需的地址範圍大小,Databricks提供了一個子網計算器作為一個微軟Excel電子表格

      點擊高級配置指定自定義IP範圍CIDR格式。這些字段的IP範圍不能重疊。所有IP地址必須完全在以下範圍內:10.0.0.0/8100.64.0.0/10172.16.0.0/12192.168.0.0/16,240.0.0.0/4

      這些IP範圍的大小會影響工作空間的最大節點數量。

      • 子網CIDR字段,輸入CIDR格式的IP範圍用於子網。GKE集群的節點都在該IP範圍內。這也是GKE集群所在子網的IP範圍。Range不能大於/ 9不小於/ 29

      • Pod地址範圍字段,輸入CIDR格式的IP範圍作為GKE pod的輔助IP範圍。Range不能大於/ 9不小於/ 21

      • 服務地址範圍字段,輸入CIDR格式的IP範圍作為GKE服務的備用IP範圍。Range不能大於/ 16不小於/ 27日

    • 指定一個網絡配置表示您的VPC及其子網:

      • 網絡模式:設置為Customer-managed網絡

      • 網絡配置:選擇網絡配置的名稱。

  8. (可選)配置私有GKE集群詳細信息。

    • 默認情況下,Databricks創建私有GKE集群,而不是公共GKE集群。私有集群的GKE節點在公共互聯網上沒有可路由的公共IP。該選項需要Databricks創建一個額外的穀歌雲雲NAT。對於私有集群,您可以選擇為GKE主資源的IP範圍設置一個自定義值。點擊高級配置然後設置GKE主資源的IP範圍字段。所有IP地址必須完全在以下範圍內:10.0.0.0/8100.64.0.0/10172.16.0.0/12192.168.0.0/16,240.0.0.0/4.範圍必須有大小/ 28

    • 如果要使用公共GKE集群,請單擊高級配置和取消選擇啟用私有集群

  9. 點擊保存

  10. 如果這是您第一次創建工作空間,則會彈出穀歌窗口要求您選擇穀歌帳戶。完成下麵的說明。

    重要的

    如果您沒有看到穀歌帳戶彈出:

    • 如果頁麵沒有改變,你的網頁瀏覽器中可能有一個彈出窗口阻止程序。尋找關於阻塞彈出窗口的通知。配置您的彈出窗口阻止程序,以允許彈出窗口從域accounts.gcp.www.eheci.com

    • 如果您沒有看到穀歌對話框,但您的瀏覽器現在顯示了一個工作區列表,則繼續執行下一步。

    1. 在穀歌對話框中,選擇您用來登錄帳戶控製台的穀歌帳戶。

    2. 在下一個屏幕上,回複請求附加範圍的同意請求。點擊允許

      增量授權

      在您第一次嚐試創建工作區時,將顯示同意屏幕。對於連續的新工作區,穀歌不顯示同意屏幕。如果使用穀歌帳戶工具撤銷對數據庫的同意,穀歌將重新顯示同意界麵。

  11. 確認您的工作空間已成功創建。在工作區列表中的工作區旁邊,單擊開放.要查看工作空間狀態並測試工作空間,請參見查看工作空間狀態並測試新工作空間

  12. 保護工作區的GCS桶。看到在項目中保護工作空間的GCS桶

    當您創建工作空間時,穀歌Cloud上的Databricks會在穀歌Cloud項目中創建兩個穀歌雲存儲(GCS)桶。Databricks強烈建議您保護這些GCS桶,使它們不能從穀歌Cloud上的Databricks外部訪問。

在工作空間創建期間,Databricks在項目上啟用了一些必需的穀歌api(如果它們尚未啟用的話)。看到在工作區的項目上啟用穀歌api

在工作區的項目上啟用穀歌api

在創建工作空間期間,Databricks會自動在穀歌Cloud項目上啟用以下必需的穀歌api(如果它們尚未啟用):

在工作空間刪除期間,這些api不會自動禁用。

工作空間創建限製

在同一個穀歌Cloud項目中,每周最多可以創建200個工作區。如果超過此限製,創建工作區將失敗,並顯示錯誤消息:“創建自定義雲IAM角色 in project rejected”。

查看工作空間狀態並測試新工作空間

創建工作區(或更新失敗的工作區配置)後,可以在工作區頁麵。查詢工作空間的創建狀態。

  1. 查看狀態為您的新工作區列:

    • 供應:正在進行中。等待幾分鍾,刷新頁麵。

    • 運行:工作空間部署成功。繼續執行此過程中的下一步。

    • 失敗的:部署失敗。

    • 禁止:請與您的Databricks代表聯係。

    • 取消:在取消過程中。

  2. 當你的新工作場所運行,測試你的工作空間:

    1. 從工作區行的Actions菜單中選擇訪問工作區

    2. 使用您的帳戶所有者或帳戶管理員電子郵件地址和密碼登錄。

如果新工作區的狀態為失敗的,單擊工作區可查看詳細的錯誤消息。如果您不明白這個錯誤,請與Databricks代表聯係。

不能更新失敗工作區的配置。您必須刪除它,並嚐試創建一個新的工作空間。

登錄到工作區

  1. 作為創建工作區的用戶,登錄到賬戶控製台然後點擊工作區圖標。

  2. 在顯示工作區的行上,單擊行動,然後訪問工作區.或者,單擊工作區名稱,然後單擊URL標簽。

  3. 使用您的帳戶所有者或帳戶管理員電子郵件地址和密碼登錄。如果你配置了單點登錄,按單點登錄選項卡,然後單擊大藍色單點登錄按鈕。

在項目中保護工作空間的GCS桶

當您創建工作空間時,穀歌Cloud上的Databricks會在您的GCP項目中創建兩個穀歌Cloud Storage GCS桶:

  • 一個GCS桶存儲在使用各種Databricks特性(如創建筆記本)時生成的係統數據。此桶包括notebook修訂、job運行詳細信息、命令結果和Spark日誌。

  • 的工作空間的根存儲是另一個GCS桶存儲數據庫文件係統(DBFS).DBFS根桶不用於存儲生產客戶數據。在其他GCS桶中為生產客戶數據創建其他數據源和存儲。您可以選擇作為Databricks File System (DBFS)掛載附加的GCS桶。看到穀歌雲存儲

Databricks強烈建議您保護這些GCS桶,使它們不能從穀歌Cloud上的Databricks外部訪問。

要確保這些GCS桶的安全:

  1. 在瀏覽器中,轉到GCP雲控製台

  2. 選擇承載Databricks工作空間的穀歌Cloud項目。

  3. 轉到該項目的存儲服務頁麵。

  4. 為你的新工作空間尋找水桶。他們的名字是:

    • 磚——<工作區id >

    • 磚——<工作區id >係統

  5. 對於每個桶:

    1. 單擊桶查看詳細信息。

    2. 單擊權限選項卡。

    3. 檢查Members列表中的所有條目,並確定是否期望對每個成員進行訪問。

    4. 檢查我的條件列。某些權限,例如那些名為“工作空間的Databricks服務帳戶”的權限,具有IAM條件,將其限製為某些桶。穀歌雲控製台UI不評估條件,因此它可能顯示實際上無法訪問桶的角色。

      特別注意沒有IAM條件的角色。考慮在這些方麵增加限製:

      • 當添加項目級或以上級別的存儲權限時,使用IAM條件排除Databricks桶或隻允許特定的桶。

      • 選擇所需的最小權限集。例如,如果隻需要讀訪問,則指定Storage Viewer而不是Storage Admin。

        警告

        不要使用基本角色,因為它們太寬泛了。

    5. 啟用穀歌雲數據訪問審計日誌。Databricks強烈建議您為Databricks創建的GCS桶啟用數據訪問審計日誌記錄。這樣可以更快地調查可能出現的任何問題。請注意,數據訪問審計日誌記錄可能會增加GCP的使用成本。有關說明,請參見配置數據訪問審計日誌

如果您對保護這些GCS桶有疑問,請與Databricks代表聯係。

刪除工作區

  1. 賬戶控製台然後點擊工作區圖標。

  2. 在工作區所在行上,單擊行動,然後刪除.或者,單擊工作區名稱,單擊配置按鈕,並選擇刪除工作空間

  3. 在確認對話框中,鍵入工作區名稱並單擊確認刪除

    警告

    工作區刪除是不可逆的。

  4. 檢查刪除工作區後可能需要的清理步驟。看到刪除工作區後清理穀歌雲對象

刪除工作區後清理穀歌雲對象

刪除工作空間後,Databricks創建的兩個GCS桶如果不為空,可能不會自動刪除。例如,在包含工作區的bucket中,可能存在您直接或間接添加的文件,如庫或其他文件DBFS根

刪除工作區後,您可以在項目的穀歌Cloud Console中手動查找並刪除其餘對象。進入如下頁麵,將替換為您的項目ID:https://console.cloud.google.com/dm/deployments?project= <項目id >