你好,
我目前遷移磚(metastores,工作區等)從Azure AWS使用磚遷移工具。在遷移過程中挖掘代碼之後,我得出結論,該工具隻支持一個遷移的內置的蜂巢metastore但不是定製metastores統一目錄。
Q1:這是正確的還是我負責什麼嗎?
如果是,我想擴展代碼,即適應導出/導入功能的蜂巢metastore HiveClient支持其他自定義metastores從統一目錄。具體來說,這意味著MetastoreExportTask和MetastoreTableACLExportTask改編。
Q2:還有什麼需要考慮的嗎?
我也意識到,遷移工具隻導出/導入數據庫和表的定義,而不是數據本身。這也是在遷移工具的文檔頁麵。
”注意DBFS數據遷移:
DBFS是受保護的對象存儲位置在AWS和Azure。請聯係你的磚支持團隊的信息遷移DBFS資源。”
第三季度:什麼是首選方法DBFS從Azure中的數據遷移到AWS嗎?有可能隻是將所有文件/文件夾下老DBFS根新DBFS根?
提前謝謝!
@Nino Weingart:
Q1:你是正確的,內置的磚遷移工具隻支持移民的蜂巢metastore團結而不是定製metastores目錄。如果你想定製metastores遷移,您需要擴展代碼和適應HiveClient導出/導入的功能。
Q2:擴展的代碼時,您還應該考慮的潛在影響遷移工具的性能和穩定性。之前一定要徹底地測試您的更改在生產環境中使用。
問題3:不幸的是,沒有直接的方式遷移數據從Azure DBFS AWS使用磚遷移工具。如上所述的文檔,DBFS是受保護的對象存儲位置在AWS和Azure,所以你需要聯係你的磚支持團隊如何遷移DBFS資源的信息。
DBFS中的數據遷移的一個可能的解決方案是使用第三方工具如AzCopy或AWS DataSync複製文件/文件夾從舊DBFS根新DBFS根。然而,請注意,可能會有不同的文件/文件夾的格式之間的兩個雲提供商,所以你可能需要做一些調整或轉換到數據在遷移過程中。此外,重要的是要確保遷移過程不破壞任何正在進行的工作負載或數據依賴DBFS數據的管道。