連接至資訊工場

預覽

此功能已在公共預覽．

Infoworks DataFoundry是一個自動化的企業數據操作和編排係統，本機運行在Databricks上，充分利用Databricks的全部功能，為數據上船提供一個簡單的解決方案——這是操作數據湖的重要第一步。DataFoundry不僅自動化了數據攝取，而且自動化了必須伴隨攝取的關鍵功能，從而為分析奠定基礎。DataFoundry的數據錄入自動化:

數據攝取:來自所有企業和外部數據源
數據同步:CDC保持數據與源同步
數據治理:編目、沿襲、元數據管理、審計和曆史記錄

以下是在Databricks中使用Infoworks的步驟。

步驟1:生成Databricks個人訪問令牌

Infoworks使用Databricks個人訪問令牌對Databricks進行身份驗證。要生成個人訪問令牌，請遵循數據庫個人訪問令牌．另請參閱管理個人訪問令牌．

請注意

作為安全最佳實踐，當使用自動化工具、係統、腳本和應用程序進行身份驗證時，Databricks建議您使用屬於的訪問令牌服務主體而不是工作區用戶。要為服務主體創建訪問令牌，請參見管理服務主體的訪問令牌．

步驟2:設置集群以支持集成需求

Infoworks將把數據寫入S3桶，Databricks集成集群將從該位置讀取數據。因此，集成集群需要對S3桶的安全訪問。

安全訪問S3桶

要訪問AWS資源，可以使用實例概要啟動Databricks集成集群。實例概要文件應該能夠訪問登台S3存儲桶和目標S3存儲桶，您希望在其中寫入Delta表。要創建實例概要文件並配置集成集群以使用角色，請遵循使用實例概要配置S3訪問．

作為替代，你可以使用IAM證書傳遞，它支持從共享集群訪問特定於用戶的S3數據。

指定集群配置

集集群模式來標準．
集Databricks運行時版本到Databricks運行時版本。

啟用自動優化將以下屬性添加到您的火花配置：

                spark.databricks.delta.optimizeWrite.enabled真實spark.databricks.delta.autoCompact.enabled真實
               

根據集成和擴展需求配置集群。

集群配置請參見創建集群．

看到檢索連接詳細信息參閱獲取JDBC URL和HTTP路徑的步驟。

步驟3:獲取連接到集群的JDBC和ODBC連接詳細信息

要將Databricks集群連接到Infoworks，您需要以下JDBC/ODBC連接屬性:

JDBC URL
HTTP路徑

步驟4:為Databricks獲取Infoworks

去Infoworks了解更多並獲得演示。

額外的資源

支持