取消
顯示的結果
而不是尋找
你的意思是:

DBFS和三角洲湖之間的區別嗎?

pjp94
貢獻者

想潛水/更深層次的解釋不同。當我寫一個表下麵的代碼:

spark_df.write.mode(“覆蓋”).saveAsTable (“db.table”)

創建表,可以在數據選項卡。它還可以發現在一些DBFS路徑。現在如果我運行:

dbutils.fs.rm (“{}”.format (dbfs_path),遞歸= True)

dbfs_path哪裏DBFS通路到表中,它將從DBFS刪除該表,然而它仍然是在Data選項卡(雖然我知道你不能調用內部的表了筆記本,因為技術上不再存在)。

如果我運行:

如果存在db.table % sql DROP TABLE

在一個細胞,它將從數據選項卡並表DBFS下降。有人能解釋一下(高度)的基礎設施是如何工作的?感謝。

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

表在火花中,δlake-backed或者不僅僅是語義上的實際數據視圖。

磚,數據本身存儲在DBFS,這是一個抽象層之上的實際存儲(比如S3, ADLS etct)。這可以拚花、獸人、csv、json等。

用rm命令你確實從DBFS刪除數據。然而,表定義仍然存在(這是存儲在一個metastore包含關於數據庫和表存在的元數據和數據所在)。

現在你有了一個空表。刪除表定義,你不得不放棄,就像你一樣。

完整性:三角洲湖無關。三角洲湖是鋪在類固醇給你更多的功能,但工作方式保持相同。

在原帖子查看解決方案

5回複5

Kaniz
社區經理
社區經理

嗨@Paras Patel !我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

werners1
尊敬的貢獻者三世

表在火花中,δlake-backed或者不僅僅是語義上的實際數據視圖。

磚,數據本身存儲在DBFS,這是一個抽象層之上的實際存儲(比如S3, ADLS etct)。這可以拚花、獸人、csv、json等。

用rm命令你確實從DBFS刪除數據。然而,表定義仍然存在(這是存儲在一個metastore包含關於數據庫和表存在的元數據和數據所在)。

現在你有了一個空表。刪除表定義,你不得不放棄,就像你一樣。

完整性:三角洲湖無關。三角洲湖是鋪在類固醇給你更多的功能,但工作方式保持相同。

嗨@Werner Stinckens,這正是我在尋找的。謝謝!

1)跟進的問題,你需要設置一個對象存儲連接數據磚(即水平。S3 bucket或Azure Blob) ?

2)中的任何文件夾/ mnt路徑是外部對象存儲(即S3、Blob存儲等等),對嗎?其他的都是存儲在數據磚根?我問,因為我組織在/ mnt文件夾中有兩個文件夾:/ mnt / aws & / mnt /δ……不確定指的是δ湖嗎?

3)所以三角洲湖和dbfs是彼此獨立的,對嗎?DBFS就是數據實際上是存儲(即如果我寫了一個表,然後鋪文件)。三角洲湖如何融入這個嗎?

非常感謝!

werners1
尊敬的貢獻者三世

´1)你不需要磚的工作空間有它自己的存儲,但它確實是一個好主意

2)不是所有的文件夾在/ mnt外部。隻有你自己安裝在那裏的。

3)正確。三角洲湖是一個文件格式像拚花,但更多的可能性。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map