連接到同步排序
預覽
此功能已在公共預覽.
Syncsort通過將遺留數據、大型機和IBM數據與Databricks集成在一起,幫助您打破數據孤島。您可以輕鬆地將這些來源的數據提取到Delta Lake中。
下麵是使用Databricks同步排序的步驟。
步驟1:生成Databricks個人訪問令牌
Syncsort使用Databricks個人訪問令牌對Databricks進行身份驗證。要生成個人訪問令牌,請遵循數據庫個人訪問令牌.另請參閱管理個人訪問令牌.
請注意
作為安全最佳實踐,當使用自動化工具、係統、腳本和應用程序進行身份驗證時,Databricks建議您使用屬於的訪問令牌服務主體而不是工作區用戶。要為服務主體創建訪問令牌,請參見管理服務主體的訪問令牌.
步驟2:設置集群以支持集成需求
Syncsort將數據寫入S3桶,Databricks集成集群將從該位置讀取數據。因此,集成集群需要對S3桶的安全訪問。
安全訪問S3桶
要訪問AWS資源,可以使用實例概要啟動Databricks集成集群。實例概要文件應該能夠訪問登台S3存儲桶和目標S3存儲桶,您希望在其中寫入Delta表。要創建實例概要文件並配置集成集群以使用角色,請遵循使用實例概要配置S3訪問.
作為替代,你可以使用IAM證書傳遞,它支持從共享集群訪問特定於用戶的S3數據。
步驟4:配置與數據庫同步排序
去Databricks和Connect for大數據登錄頁麵並按照說明操作。