使用DBFS根目錄的建議

Databricks使用DBFS根目錄作為默認位置對於一些工作區操作。Databricks建議不要在DBFS根目錄中存儲任何生產數據或敏感信息。本文主要討論避免DBFS根節點上敏感數據意外暴露的建議。

請注意

Databricks配置一個單獨的私有存儲位置,用於在客戶擁有的雲存儲(稱為內部DBFS)中持久化數據和配置。此位置不向用戶公開。

教育用戶不要將數據存儲在DBFS根目錄上

因為工作區中的所有用戶都可以訪問DBFS根目錄,所以所有用戶都可以訪問存儲在這裏的任何數據。重要的是要指導用戶避免使用此位置存儲敏感數據。在Databricks上Hive metastore中托管表的默認位置是DBFS根目錄;為了防止創建托管表的最終用戶寫入DBFS根目錄,在Hive metastore中創建數據庫時在外部存儲上聲明一個位置。

Unity Catalog托管表默認使用安全的存儲位置。Databricks建議對托管表使用Unity Catalog。

使用審計日誌記錄來監視活動

您可以將雲審計日誌與工作區審計日誌一起使用,以監視和識別將數據存儲到DBFS根目錄的用戶。

Databricks建議您啟用S3對象級日誌記錄您的DBFS根桶,以允許更快的問題調查。請注意,啟用S3對象級日誌記錄會增加AWS的使用成本。

使用客戶管理的密鑰加密DBFS根數據

可以使用客戶管理的密鑰加密DBFS根數據。看到工作空間存儲的客戶管理鍵