解決:加快在python for循環(azure databrick) -磚- 26154

傑基 · ‎03-08-2022

代碼示例

#一個文件路徑列表

list_files_path = [" / dbfs / mnt /……”,……,"/dbfs/mnt/..."]

#以上文件複製到該文件夾

dest_path = " " / dbfs / mnt /……”

在list_files_path file_path:

#複製功能

copy_file (file_path dest_path)

我在azure databrick運行它,它將正常工作。但是我想知道如果我可以利用並行databrick的集群的力量。

我知道我可以運行一些多線程在主節點,但我想知道如果我可以使用pandas_udf利用工作節點。

謝謝!

Hubert_Dudek1 · ‎03-09-2022

@Jackie Chan使用火花並行性可以注冊兩個目的地作為使用複製到或注冊表隻是來源如表和使用CREATE table克隆。

如果你想使用普通副本最好使用dbutils。fs圖書館

如果你想複製ADSL / blob之間定期數據沒有什麼可以趕上Azure數據工廠。你可以複製管道,這將是最便宜,最快的。如果你需要depedency桶磚筆記本複製之前/之後你可以編排(成功運行磚筆記本等)結合ADF磚。

Hubert_Dudek1 · ‎03-09-2022

@Jackie Chan使用火花並行性可以注冊兩個目的地作為使用複製到或注冊表隻是來源如表和使用CREATE table克隆。

如果你想使用普通副本最好使用dbutils。fs圖書館

如果你想複製ADSL / blob之間定期數據沒有什麼可以趕上Azure數據工廠。你可以複製管道,這將是最便宜,最快的。如果你需要depedency桶磚筆記本複製之前/之後你可以編排(成功運行磚筆記本等)結合ADF磚。

werners1 · ‎03-09-2022

@Jackie Chan ADF確實巨大的吞吐量。所以去ADF如果你想要一個簡單的複製(所以沒有轉換)。

Kaniz · ‎04-27-2022

嗨@Jackie Chan)隻是一個友好的後續。你還需要幫助,還是上麵的回答幫助你找到解決方案了嗎?請讓我們知道。

赫曼特 · ‎04-27-2022

@Jackie Chan)你想複製數據大小是多少?如果是更大的,然後利用ADF。

赫曼特索尼