取消
顯示的結果
而不是尋找
你的意思是:

磚筆記本花兩個小時寫的到/ mnt / dbfs (blob存儲)。同樣的工作正在寫/ dbfs / FileStore 8分鍾。我想明白為什麼寫性能在這兩種情況下是不同的。

蘇倫德拉
新的貢獻者三世

問題陳述:

  • 源文件格式:gz
  • Avg尺寸:10 mb
  • 焦油。gz文件:1000
  • 每一個焦油。gz文件contails約20000 csv文件。

要求:

解壓tar。gz文件和CSV文件寫入blob存儲/中間存儲層進行進一步處理。

我已經嚐試:

解壓並編寫安裝位置(附截圖):

我在這裏使用hadoop FileUtil庫解壓函數將和寫CSV文件解壓到目標存儲(/ dbfs / mnt / blob存儲)。

需要1.50小時完成工作2工人集群節點(4芯)。

databricks_write_to_dbfsMount解壓並編寫DBFS根FileStore:

我在這裏使用hadoop FileUtil庫壓縮函數將和寫CSV文件解壓到目標存儲(/ dbfs / FileStore /)隻需8分鍾完成2工人的工作節點(4芯)集群。

databricks_write_to_dbfsMount

問題:

為什麼寫DBFS / FileStore或DBFS /磚/司機15倍,寫作DBFS / mnt存儲?

DBFS什麼存儲和文件係統根(/ FileStore / databricks-datasets /磚/司機)在後台使用嗎?為每個子文件夾大小限製是什麼?

5回複5

Kaniz
社區經理
社區經理

嗨@Hubert杜德克,我隻是想謝謝你。我們很幸運擁有像你這樣的客戶!beplay体育app下载地址

你正在幫助我們社區的方式是難以置信的。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map