開始
加載和管理數據
處理數據
政府
參考和資源
2023年2月22日更新
給我們反饋
Databricks允許用戶將雲對象存儲掛載到Databricks文件係統(DBFS),以簡化不熟悉雲概念的用戶的數據訪問模式。掛載的數據不能與Unity Catalog一起工作,Databricks建議遷移使用掛載,並使用Unity Catalog管理數據治理。
Databricks掛載在工作區和雲對象存儲之間創建了一個鏈接,這使您能夠使用相對於Databricks文件係統的熟悉的文件路徑與雲對象存儲交互。對象下創建本地別名來進行掛載/ mnt存放以下信息的目錄:
/ mnt
雲對象存儲的位置。
連接到存儲帳戶或容器的驅動程序規格。
訪問數據所需的安全憑據。
的源指定對象存儲的URI(並且可以選擇編碼安全憑證)。的掛載點文件中的本地路徑/ mnt目錄中。某些對象存儲源支持可選的encryptionType論點。對於某些訪問模式,您可以將額外的配置規範作為字典傳遞給extraConfigs.
源
掛載點
encryptionType
extraConfigs
山(源:str,掛載點:str,encryptionType:可選[str]="",extraConfigs:可選[dict[str:str]]=沒有一個)
在配置或更改數據掛載之前,請與您的工作空間和雲管理員進行檢查,因為不正確的配置可能為工作空間中的所有用戶提供不安全的訪問。
請注意
除了本文中描述的方法之外,您還可以使用Databricks Terraform提供商而且databricks_mount.
卸載掛載點,使用以下命令:
dbutils.fs.卸載(“/ mnt / < mount-name >”)
重要的
在作業運行時卸載掛載點可能會導致錯誤。確保生產作業不卸載存儲作為處理的一部分。
要使用DBFS掛載,桶名不能包含下劃線。要寫入GCS存儲桶,必須為該存儲桶提供穀歌Cloud projection。
你必須使用服務帳戶為集群配置安全性時的電子郵件地址。
您可以將桶掛載到什麼是數據庫文件係統(DBFS)?.掛載是一個指向GCS位置的指針,因此數據永遠不會在本地同步。
下麵的示例顯示了掛載GCS桶的基本語法:
bucket_name=“my-gcs-bucket”mount_name=“騎”dbutils.fs.山(f“gs: / /{bucket_name}",f“/ mnt /磚/{mount_name}",extra_configs={“fs.gs.project.id”:“my-project-id”})
瓦爾bucket_name=“my-gcs-bucket”瓦爾mount_name=“騎”dbutils.fs.山(“gs: / /$ {bucket_name}",“/ mnt /磚/$ {mount_name}",extraConfigs=地圖(“fs.gs.project.id”->“my-project-id”))