DBFS CLI

運行Databricks DBFS CLI命令,將它們附加到fs(或別名dbfs),在所有DBFS路徑前加上dbfs: /

Databricks fs -h
使用方法:databricks fs [OPTIONS] COMMAND [ARGS]…與DBFS交互的實用程序。DBFS路徑的前綴都是DBFS:/。本地路徑可以是絕對路徑也可以是本地路徑。選項:-v,——version -h,——help顯示此消息並退出。命令:cat顯示文件內容。不適用於目錄。configure cp從DBFS拷貝文件。選項:-r,——recursive——overwrite覆蓋已經存在的文件。ls列出DBFS中的文件。 Options: --absolute Displays absolute paths. -l Displays full information including size and file type. mkdirs Makes directories in DBFS. mv Moves a file between two DBFS paths. rm Removes files from DBFS. Options: -r, --recursive

對於列出、移動或刪除超過10k文件的操作,我們強烈建議使用DBFS CLI。

  • 列表操作(fsls)會在大約60秒後超時。

  • 移動操作(fsmv)將在大約60秒後超時,可能導致部分數據移動。

  • 刪除操作(fsrm)將逐步刪除批量的文件。

我們建議您在集群上下文中執行這些操作,使用文件係統實用程序dbutils.fs涵蓋了DBFS REST API的功能範圍,但是來自筆記本。使用筆記本運行這樣的操作提供了更好的控製,例如選擇性刪除、可管理性和自動化定期作業的可能性。

列出文件的內容

要顯示使用文檔,請執行命令fs——幫助

Databricks fs cat dbfs:/tmp/my-file.txt
Apache Spark非常棒!

複製一個文件

要顯示使用文檔,請執行命令fscp——幫助

Databricks fs cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt——覆蓋

如果成功,此命令將不顯示任何內容。

列出文件和目錄的信息

要顯示使用文檔,請執行命令fsls——幫助

Databricks fs ls dbfs:/tmp——absolute -l . exe
/tmp/LoanStats.csv 1590005159000 . dbfs文件40 dbfs:/tmp/file_b.txt 1603991038000Dir 0 dbfs:/tmp/hive 0Dir 0 dbfs:/tmp/mlflow 0文件385 dbfs:/tmp/multi-line。json 1597770632000Dir 0 dbfs:/tmp/new 0Dir 0 dbfs:/tmp/parent 0文件243 dbfs:/tmp/test。json 1597770628000文件40 dbfs:/tmp/test_dbfs.txt 1603989162000

創建目錄

要顯示使用文檔,請執行命令fsmkdir——幫助

Databricks fs mkdirs dbfs:/tmp/new-dir

如果成功,此命令將不顯示任何內容。

移動文件

要顯示使用文檔,請執行命令fsmv——幫助

Databricks fs mv dbfs:/tmp/my-file.txt dbfs:/parent/child/grandchild/my-file.txt

如果成功,此命令將不顯示任何內容。

刪除文件

要顯示使用文檔,請執行命令fsrm——幫助

Databricks fs rm dbfs:/tmp/parent/child/grandchild/my-file.txt
刪除完成成功。