連接到流集

預覽

此功能已在公共預覽

StreamSets可以幫助您在整個生命周期中管理和監視數據流。StreamSets本機集成Databricks和Delta Lake,允許您從各種來源提取數據並輕鬆管理管道。

有關StreamSets的一般演示,請觀看以下YouTube視頻(10分鍾)。

下麵是使用StreamSets和Databricks的步驟。

步驟1:生成Databricks個人訪問令牌

StreamSets使用Databricks個人訪問令牌對Databricks進行身份驗證。要生成個人訪問令牌,請遵循生成一個個人訪問令牌

請注意

作為安全最佳實踐,當使用自動化工具、係統、腳本和應用程序進行身份驗證時,Databricks建議您使用屬於的訪問令牌服務主體而不是工作區用戶。要為服務主體創建訪問令牌,請參見管理服務主體的訪問令牌

步驟2:設置集群以支持集成需求

StreamSets將把數據寫入S3桶,Databricks集成集群將從該位置讀取數據。因此,集成集群需要對S3桶的安全訪問。

安全訪問S3桶

要訪問AWS資源,可以使用實例概要啟動Databricks集成集群。實例概要文件應該能夠訪問登台S3存儲桶和目標S3存儲桶,您希望在其中寫入Delta表。要創建實例概要文件並配置集成集群以使用角色,請遵循使用實例概要保護對S3桶的訪問

作為替代,你可以使用IAM證書傳遞,它支持從共享集群訪問特定於用戶的S3數據。

指定集群配置

  1. 集群模式標準

  2. Databricks運行時版本到運行時:6.3或以上。

  3. 啟用自動優化將以下屬性添加到您的火花配置

    spark.databricks.delta.optimizeWrite.enabled真實spark.databricks.delta.autoCompact.enabled真實
  4. 根據集成和擴展需求配置集群。

集群配置請參見配置集群

看到檢索連接詳細信息參閱獲取JDBC URL和HTTP路徑的步驟。

步驟3:獲取連接到集群的JDBC和ODBC連接詳細信息

要將Databricks集群連接到StreamSets,您需要以下JDBC/ODBC連接屬性:

  • JDBC URL

  • HTTP路徑

步驟4:獲取數據流集

報名數據流集,如果您還沒有StreamSets帳戶。你可以免費開始,準備好了就升級;看到StreamSets DataOps平Beplay体育安卓版本台定價

步驟5:學習如何使用StreamSets將數據加載到Delta Lake

從示例管道開始或檢查StreamSets解決方案學習如何建立一個將數據輸入Delta Lake的管道。

額外的資源

支持