如何指定DBFS路徑

學習如何在Apache火花指定DBFS路徑,Bash, DBUtils, Python, Scala。

寫的ram.sankarasubramanian

去年發表在:2022年12月9日

當使用磚你有時會需要訪問的數據磚文件係統(DBFS)。

訪問DBFS是用標準的文件係統上的文件命令,然而語法變化取決於所使用的語言或工具。

例如,采取以下DBFS路徑:

dbfs: / mnt / test_folder / test_folder1 /

Apache火花

在火花,你應該指定在火花讀取命令的完整路徑。

spark.read.parquet (“dbfs: / mnt / test_folder / test_folder1 / file.parquet”)

DBUtils

當你使用DBUtils,應該使用完整的DBFS路徑,就像在火花命令。DBFS路徑周圍的特定於語言的格式取決於所使用的語言不同。

Bash

% fs ls dbfs: / mnt / test_folder / test_folder1 /

Python

% python dbutils.fs.ls (dbfs: / mnt / test_folder / test_folder1 / ')

Scala

% scala dbutils.fs.ls (“dbfs: / mnt / test_folder test_folder1 /”)
刪除

請注意

指定dbfs:不需要使用時DBUtils或火花命令。的路徑dbfs: / mnt / test_folder / test_folder1 /相當於/ mnt / test_folder / test_folder1 /

Shell命令

Shell命令不承認足協路徑。相反,DBFS和文件內,訪問相同的語法和其他文件夾的文件係統。

Bash

ls / dbfs / mnt / test_folder / test_folder1 /貓/ dbfs / mnt / test_folder / test_folder1 / file_name.txt

Python

導入操作係統os.listdir (' / dbfs / mnt / test_folder / test_folder1 / ')

Scala

導入java。文件val目錄=新文件(“/ dbfs / mnt / test_folder / test_folder1 /”) directory.listFiles


這篇文章有用嗎?