使用帳戶控製台創建和管理工作區
工作區是雲服務帳戶中的Databricks部署。它為指定的一組用戶提供了使用Databricks資產的統一環境。本文描述了如何創建和管理工作區。
請注意
Databricks對使用Databricks單元(DBUs)中的Databricks收費。工作負載消耗的DBUs數量取決於許多因素,包括Databricks計算類型(多用途或工作)和穀歌雲機類型。詳細信息請參見定價頁.如果您對價格有疑問,請聯係Databricks代表。
您的穀歌雲賬戶會產生額外的費用:
穀歌Cloud向您收取Databricks為Databricks基礎設施在您的帳戶中創建的GKE集群的每個工作空間的額外費用。截至2021年3月30日,該GKE集群的成本約為200美元/月,與GKE集群運行的天數成比例。價格可以變化,所以檢查最新的價格.
即使Databricks集群空閑,GKE集群成本也會生效。為減少此空閑時間成本,如果Databricks Runtime集群五天內沒有活動,Databricks將刪除帳戶中的GKE集群。其他資源如VPC、GCS桶等保持不變。下一次Databricks Runtime集群啟動時,Databricks將重新創建GKE集群,這將增加初始Databricks Runtime集群啟動時間。對於刪除GKE集群如何降低每月成本的示例,假設您在每月的第一天使用了Databricks Runtime集群,但在每月的其餘時間都沒有使用:您的GKE使用量將是空閑超時生效前的五天,沒有其他時間,每月成本約為33美元。
Databricks不支持對正在運行的GKE集群進行配置更改。如果您在創建GKE集群配置後自定義該集群,並且該集群由於空閑超時而被刪除,則重新創建的集群將不包括您的自定義。
使用帳戶控製台創建工作空間
您可以使用帳戶控製台創建一個工作區。在創建新工作空間之前,請確保了解所有配置設置。在嚐試創建工作空間之後,您無法修改工作空間配置。
創建一個工作區:
為你的新工作空間選擇一個網絡類型:
由數據庫管理的VPC(默認):數據庫負責創建和管理VPC的生命周期。如果選擇這種網絡類型,現在不需要執行其他步驟。
Customer-managed VPC:創建並指定您自己的customer-managed VPC供您的新Databricks工作區使用。如果選擇此網絡類型,現在執行以下步驟:
注冊網絡配置,表示VPC及其子網。
以Databricks帳戶所有者或admin帳戶登錄賬戶控製台然後點擊工作區圖標。這是帳戶控製台默認視圖。
點擊創建工作區.
在工作區名稱字段,為該工作區輸入一個人類可讀的名稱。名稱隻能由數字、字母、“_”和“-”組成,長度為3 ~ 30個字符。
在地區字段,為工作區的網絡和集群選擇一個區域。有關受支持區域的列表,請參見支持的Databricks區域.
在穀歌雲項目ID字段,輸入您的穀歌雲項目ID。要了解如何獲取項目ID,請參見需求.
如果你計劃使用customer-managed VPC對於這個工作區:
網絡設置。此步驟因工作空間的網絡類型而異。
對於由客戶管理的VPC,單擊Customer-managed VPC選項卡。
可選地指定自定義子網大小。如果將這些字段保留為空,Databricks將使用默認值。
重要的
正確配置Databricks工作空間使用的GKE子網。您不能在部署工作區之後更改它們。如果Databricks子網的地址範圍太小,則工作空間將耗盡其IP空間,從而導致Databricks作業失敗。要確定所需的地址範圍大小,Databricks提供了一個子網計算器作為一個微軟Excel電子表格.
點擊高級配置指定自定義IP範圍CIDR格式。這些字段的IP範圍不能重疊。所有IP地址必須完全在以下範圍內:
10.0.0.0/8
,100.64.0.0/10
,172.16.0.0/12
,192.168.0.0/16
,240.0.0.0/4
.這些IP範圍的大小會影響工作空間的最大節點數量。
在子網CIDR字段,輸入CIDR格式的IP範圍用於子網。GKE集群的節點都在該IP範圍內。這也是GKE集群所在子網的IP範圍。Range不能大於
/ 9
不小於/ 29
.在Pod地址範圍字段,輸入CIDR格式的IP範圍作為GKE pod的輔助IP範圍。Range不能大於
/ 9
不小於/ 21
.在服務地址範圍字段,輸入CIDR格式的IP範圍作為GKE服務的備用IP範圍。Range不能大於
/ 16
不小於/ 27日
.
指定一個網絡配置表示您的VPC及其子網:
網絡模式:設置為Customer-managed網絡.
網絡配置:選擇網絡配置的名稱。
(可選)配置私有GKE集群詳細信息。
默認情況下,Databricks創建私有GKE集群,而不是公共GKE集群。私有集群的GKE節點在公共互聯網上沒有可路由的公共IP。該選項需要Databricks創建一個額外的穀歌雲雲NAT。對於私有集群,您可以選擇為GKE主資源的IP範圍設置一個自定義值。點擊高級配置然後設置GKE主資源的IP範圍字段。所有IP地址必須完全在以下範圍內:
10.0.0.0/8
,100.64.0.0/10
,172.16.0.0/12
,192.168.0.0/16
,240.0.0.0/4
.範圍必須有大小/ 28
.如果要使用公共GKE集群,請單擊高級配置和取消選擇啟用私有集群.
點擊保存.
如果這是您第一次創建工作空間,則會彈出穀歌窗口要求您選擇穀歌帳戶。完成下麵的說明。
重要的
如果您沒有看到穀歌帳戶彈出:
如果頁麵沒有改變,你的網頁瀏覽器中可能有一個彈出窗口阻止程序。尋找關於阻塞彈出窗口的通知。配置您的彈出窗口阻止程序,以允許彈出窗口從域
accounts.gcp.www.eheci.com
.如果您沒有看到穀歌對話框,但您的瀏覽器現在顯示了一個工作區列表,則繼續執行下一步。
在穀歌對話框中,選擇您用來登錄帳戶控製台的穀歌帳戶。
在下一個屏幕上,回複請求附加範圍的同意請求。點擊允許.
在您第一次嚐試創建工作區時,將顯示同意屏幕。對於連續的新工作區,穀歌不顯示同意屏幕。如果使用穀歌帳戶工具撤銷對數據庫的同意,穀歌將重新顯示同意界麵。
確認您的工作空間已成功創建。在工作區列表中的工作區旁邊,單擊開放.要查看工作空間狀態並測試工作空間,請參見查看工作空間狀態並測試新工作空間.
保護工作區的GCS桶。看到在項目中保護工作空間的GCS桶.
當您創建工作空間時,穀歌Cloud上的Databricks會在穀歌Cloud項目中創建兩個穀歌雲存儲(GCS)桶。Databricks強烈建議您保護這些GCS桶,使它們不能從穀歌Cloud上的Databricks外部訪問。
在工作空間創建期間,Databricks在項目上啟用了一些必需的穀歌api(如果它們尚未啟用的話)。看到在工作區的項目上啟用穀歌api.
查看工作空間狀態並測試新工作空間
創建工作區(或更新失敗的工作區配置)後,可以在工作區頁麵。查詢工作空間的創建狀態。
查看狀態為您的新工作區列:
供應:正在進行中。等待幾分鍾,刷新頁麵。
運行:工作空間部署成功。繼續執行此過程中的下一步。
失敗的:部署失敗。
禁止:請與您的Databricks代表聯係。
取消:在取消過程中。
當你的新工作場所運行,測試你的工作空間:
從工作區行的Actions菜單中選擇訪問工作區.
使用您的帳戶所有者或帳戶管理員電子郵件地址和密碼登錄。
如果新工作區的狀態為失敗的,單擊工作區可查看詳細的錯誤消息。如果您不明白這個錯誤,請與Databricks代表聯係。
不能更新失敗工作區的配置。您必須刪除它,並嚐試創建一個新的工作空間。
在項目中保護工作空間的GCS桶
當您創建工作空間時,穀歌Cloud上的Databricks會在您的GCP項目中創建兩個穀歌Cloud Storage GCS桶:
一個GCS桶存儲在使用各種Databricks特性(如創建筆記本)時生成的係統數據。此桶包括notebook修訂、job運行詳細信息、命令結果和Spark日誌。
的工作空間的根存儲是另一個GCS桶存儲數據庫文件係統(DBFS).DBFS根桶不用於存儲生產客戶數據。在其他GCS桶中為生產客戶數據創建其他數據源和存儲。您可以選擇作為Databricks File System (DBFS)掛載附加的GCS桶。看到穀歌雲存儲.
Databricks強烈建議您保護這些GCS桶,使它們不能從穀歌Cloud上的Databricks外部訪問。
要確保這些GCS桶的安全:
在瀏覽器中,轉到GCP雲控製台.
選擇承載Databricks工作空間的穀歌Cloud項目。
轉到該項目的存儲服務頁麵。
為你的新工作空間尋找水桶。他們的名字是:
磚——<工作區id >
磚——<工作區id >係統
對於每個桶:
單擊桶查看詳細信息。
單擊權限選項卡。
檢查Members列表中的所有條目,並確定是否期望對每個成員進行訪問。
檢查我的條件列。某些權限,例如那些名為“工作空間的Databricks服務帳戶”的權限,具有IAM條件,將其限製為某些桶。穀歌雲控製台UI不評估條件,因此它可能顯示實際上無法訪問桶的角色。
特別注意沒有IAM條件的角色。考慮在這些方麵增加限製:
當添加項目級或以上級別的存儲權限時,使用IAM條件排除Databricks桶或隻允許特定的桶。
選擇所需的最小權限集。例如,如果隻需要讀訪問,則指定Storage Viewer而不是Storage Admin。
警告
不要使用基本角色,因為它們太寬泛了。
啟用穀歌雲數據訪問審計日誌。Databricks強烈建議您為Databricks創建的GCS桶啟用數據訪問審計日誌記錄。這樣可以更快地調查可能出現的任何問題。請注意,數據訪問審計日誌記錄可能會增加GCP的使用成本。有關說明,請參見配置數據訪問審計日誌.
如果您對保護這些GCS桶有疑問,請與Databricks代表聯係。
刪除工作區
去賬戶控製台然後點擊工作區圖標。
在工作區所在行上,單擊行動,然後刪除.或者,單擊工作區名稱,單擊配置按鈕,並選擇刪除工作空間.
在確認對話框中,鍵入工作區名稱並單擊確認刪除.
警告
工作區刪除是不可逆的。
檢查刪除工作區後可能需要的清理步驟。看到刪除工作區後清理穀歌雲對象.
刪除工作區後清理穀歌雲對象
刪除工作空間後,Databricks創建的兩個GCS桶如果不為空,可能不會自動刪除。例如,在包含工作區的bucket中,可能存在您直接或間接添加的文件,如庫或其他文件DBFS根.
刪除工作區後,您可以在項目的穀歌Cloud Console中手動查找並刪除其餘對象。進入如下頁麵,將https://console.cloud.google.com/dm/deployments?project= <項目id >
.