什麼是數據庫文件係統(DBFS)?

Databricks文件係統(DBFS)是掛載到Databricks工作空間中的分布式文件係統,可在Databricks集群上使用。DBFS是可伸縮對象存儲的抽象,它提供了一個優化的FUSE(用戶空間文件係統)接口,映射到本地雲存儲API調用。

請注意

Databricks工作空間使用DBFS根卷,默認所有用戶均可訪問。Databricks建議不要將生產數據存儲在這個位置。

使用DBFS可以做什麼?

DBFS通過將雲對象存儲uri映射到相對路徑提供了便利。

  • 允許你與對象存儲交互使用目錄和文件語義代替特定於雲計算的API命令。

  • 允許你雲對象存儲位置,以便您可以將存儲憑據映射到Databricks工作空間中的路徑。

  • 簡化將文件持久化到對象存儲的過程,允許在集群終止時安全地刪除虛擬機和掛載的卷存儲。

  • 為存儲初始化腳本、jar、庫和集群初始化配置提供了方便的位置。

  • 為使用OSS深度學習庫進行模型訓練時創建的檢查點文件提供了方便的位置。

掛載對象存儲

將對象存儲掛載到DBFS允許您像訪問本地文件係統上的對象一樣訪問對象存儲中的對象。掛載存儲訪問存儲所需的Hadoop配置,因此不需要在代碼中或在集群配置期間指定這些設置。

有關更多信息,請參見通過Databricks掛載雲對象存儲

DBFS根是什麼?

DBFS根是Databricks工作空間的默認存儲位置,在包含Databricks工作空間的雲帳戶中作為工作空間創建的一部分提供。有關DBFS根配置和部署的詳細信息,請參見AWS存儲配置.有關在DBFS根目錄中保護數據的最佳實踐,請參見使用DBFS根目錄的建議

Databricks的一些用戶可能將DBFS根目錄稱為“DBFS”或“the DBFS”;區分DBFS是一個用於與雲對象存儲中的數據交互的文件係統,而DBFS根是一個雲對象存儲位置是很重要的。使用DBFS與DBFS根進行交互,但它們是不同的概念,而且DBFS在DBFS根之外還有許多應用程序。

DBFS根包含許多特殊位置,它們作為用戶在工作空間中執行的各種操作的默認位置。有關詳細信息,請參見DBFS根目錄默認有哪些目錄?

DBFS如何與Unity Catalog一起工作?

Unity Catalog添加了外部位置和托管存儲憑證的概念,以幫助組織提供對雲對象存儲中的數據的最低權限訪問。Unity Catalog還為托管表提供了一個新的默認存儲位置。一些安全配置提供了對Unity catalog管理的資源和DBFS的直接訪問。Databricks整理了關於使用DBFS和Unity Catalog