什麼是數據庫文件係統(DBFS)?
Databricks文件係統(DBFS)是掛載到Databricks工作空間中的分布式文件係統,可在Databricks集群上使用。DBFS是可伸縮對象存儲的抽象,它提供了一個優化的FUSE(用戶空間文件係統)接口,映射到本地雲存儲API調用。
請注意
Databricks工作空間使用DBFS根卷,默認所有用戶均可訪問。Databricks建議不要將生產數據存儲在這個位置。
掛載對象存儲
將對象存儲掛載到DBFS允許您像訪問本地文件係統上的對象一樣訪問對象存儲中的對象。掛載存儲訪問存儲所需的Hadoop配置,因此不需要在代碼中或在集群配置期間指定這些設置。
有關更多信息,請參見通過Databricks掛載雲對象存儲.
DBFS根是什麼?
的DBFS根是Databricks工作空間的默認存儲位置,在包含Databricks工作空間的雲帳戶中作為工作空間創建的一部分提供。有關DBFS根配置和部署的詳細信息,請參見AWS存儲配置.有關在DBFS根目錄中保護數據的最佳實踐,請參見使用DBFS根目錄的建議.
Databricks的一些用戶可能將DBFS根目錄稱為“DBFS”或“the DBFS”;區分DBFS是一個用於與雲對象存儲中的數據交互的文件係統,而DBFS根是一個雲對象存儲位置是很重要的。使用DBFS與DBFS根進行交互,但它們是不同的概念,而且DBFS在DBFS根之外還有許多應用程序。
DBFS根包含許多特殊位置,它們作為用戶在工作空間中執行的各種操作的默認位置。有關詳細信息,請參見DBFS根目錄默認有哪些目錄?.
DBFS如何與Unity Catalog一起工作?
Unity Catalog添加了外部位置和托管存儲憑證的概念,以幫助組織提供對雲對象存儲中的數據的最低權限訪問。Unity Catalog還為托管表提供了一個新的默認存儲位置。一些安全配置提供了對Unity catalog管理的資源和DBFS的直接訪問。Databricks整理了關於使用DBFS和Unity Catalog.