取消
顯示的結果
而不是尋找
你的意思是:

加快在python for循環(azure databrick)

傑基
新的貢獻者二世

代碼示例

#一個文件路徑列表

list_files_path = [" / dbfs / mnt /……”,……,"/dbfs/mnt/..."]

#以上文件複製到該文件夾

dest_path = " " / dbfs / mnt /……”

在list_files_path file_path:

#複製功能

copy_file (file_path dest_path)

我在azure databrick運行它,它將正常工作。但是我想知道如果我可以利用並行databrick的集群的力量。

我知道我可以運行一些多線程在主節點,但我想知道如果我可以使用pandas_udf利用工作節點。

謝謝!

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

@Jackie Chan使用火花並行性可以注冊兩個目的地作為使用複製到或注冊表隻是來源如表和使用CREATE table克隆。

如果你想使用普通副本最好使用dbutils。fs圖書館

如果你想複製ADSL / blob之間定期數據沒有什麼可以趕上Azure數據工廠。你可以複製管道,這將是最便宜,最快的。如果你需要depedency桶磚筆記本複製之前/之後你可以編排(成功運行磚筆記本等)結合ADF磚。

在原帖子查看解決方案

4回複4

Hubert_Dudek1
尊敬的貢獻者三世

@Jackie Chan使用火花並行性可以注冊兩個目的地作為使用複製到或注冊表隻是來源如表和使用CREATE table克隆。

如果你想使用普通副本最好使用dbutils。fs圖書館

如果你想複製ADSL / blob之間定期數據沒有什麼可以趕上Azure數據工廠。你可以複製管道,這將是最便宜,最快的。如果你需要depedency桶磚筆記本複製之前/之後你可以編排(成功運行磚筆記本等)結合ADF磚。

werners1
尊敬的貢獻者三世

@Jackie Chan ADF確實巨大的吞吐量。所以去ADF如果你想要一個簡單的複製(所以沒有轉換)。

Kaniz
社區經理
社區經理

嗨@Jackie Chan)隻是一個友好的後續。你還需要幫助,還是上麵的回答幫助你找到解決方案了嗎?請讓我們知道。

赫曼特
重視貢獻二世

@Jackie Chan)你想複製數據大小是多少?如果是更大的,然後利用ADF。

赫曼特索尼
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map