取消
顯示的結果
而不是尋找
你的意思是:

查詢DBFS遷移

Harsh1
新的貢獻者二世

我們正在做DBFS遷移。我們有一個文件夾的用戶在根DBFS數據5.8結核病在遺留的工作空間。我們進行了AWS CLi / cp同步之間的遺產為目標再一次做了相同的針對dbfs的目標數據

而實現這種技術我們遷移文件夾在/ mnt / dbfs-root目標根鬥。而遷移/ dbfs-root(用戶、FileStore回家)我們遇到一個問題似乎非常緩慢而移動/ dbfs /用戶

/ user - 5.8結核病

/ home - 680 GB

/ FileStore - 181 GB

注意:這僅僅是緩慢在執行遷移目標S3桶,/ dbfs /用戶

狀態更新/ dbfs /用戶到現在:

數據遷移狀態- 750 GB / 5.8 TB

完成12.9% ~

數據傳輸通過AWS同步到現在:~ 403 GB

我們都很好奇,因為它隻是發生用戶往往是非常緩慢的。一天大約200 GB。但這不是/回家/ FileStore的場景。

請建議的最佳實踐/用戶文件夾目標工作區山在查看這些數據。

已經使用方法:

  1. dbutils.fs.cp ()
  2. aws s3同步
  3. aws s3 cp
2回答2

Hubert_Dudek1
尊敬的貢獻者三世

dbutils.fs.cp()和其他dbutils命令將是緩慢的,因為他們隻使用單一核心。

考慮使用AWS數據同步shorturl.at / FNQTV

Harsh1
新的貢獻者二世

謝謝你的快速反應。

關於建議AWS數據同步一個方法,我們已經試過了數據同步以多種方式,創建文件夾在s3 bucket本身不是DBFS。我們的任務是複製DBFS桶。

看來這隻不支持桶水平操作DBFS水平。

請建議任何最佳實踐/方法可以滿足我們的需要。這將是一個巨大的幫助。謝謝。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map