管道在工作流運行一個三角洲生活表
預覽
這個特性是在公共預覽。
您可以運行一個三角洲生活表管道作為數據處理工作流與數據磚的一部分工作,Apache氣流或Azure數據工廠。
工作
你可以安排多個任務在磚工作來實現數據處理的工作流程。包括三角洲表管道的工作生活,使用管道任務時創建一個工作。
Apache氣流
Apache氣流是一個開源的解決方案管理和調度數據工作流。氣流將工作流表示為有向無環圖(無進取心的人)的操作。你定義一個工作流在Python文件和氣流管理調度和執行。氣流與磚的安裝和使用的信息,明白了編排與Apache氣流磚工作。
δ住表管道運行作為一個氣流工作流的一部分,使用DatabricksSubmitRunOperator。
例子
下麵的示例創建一個氣流DAG觸發更新的三角洲住表管道標識符8279 d543 - 063 c - 4 d63 - 9926 dae38e35ce8b
:
從氣流進口DAG從airflow.providers.databricks.operators.databricks進口DatabricksSubmitRunOperator從airflow.utils.dates進口days_agodefault_args={“主人”:“氣流”}與DAG(“dlt”,start_date=days_ago(2),schedule_interval=“@once”,default_args=default_args)作為dag:opr_run_now=DatabricksSubmitRunOperator(task_id=“run_now”,databricks_conn_id=“CONNECTION_ID”,pipeline_task={“pipeline_id”:“8279 d543 - 063 c - 4 d63 - 9926 dae38e35ce8b”})
取代CONNECTION_ID
的標識符氣流連接你的工作空間。
保存這個例子氣流/無進取心的人
目錄,並使用氣流UI視圖和觸發器DAG。使用三角洲住表界麵查看管道更新的詳細信息。
Azure數據工廠
Azure數據工廠是一個基於雲的ETL服務,允許您編排工作流數據集成和轉換。Azure數據工廠直接支持工作流運行磚任務,包括筆記本電腦、JAR任務和Python腳本。您還可以包括一個管道在工作流通過調用三角洲生活表API從Azure數據工廠網絡活動。例如,觸發一個管道從Azure數據更新工廠:
創建一個數據工廠或打開一個現有的數據工廠。
當創建完成後,打開的頁麵數據工廠並單擊打開Azure數據工廠工作室瓷磚。Azure數據工廠用戶界麵出現。
創建一個新的Azure數據工廠管道通過選擇管道從新下拉菜單在Azure數據工廠工作室用戶界麵。
在活動工具箱,擴大一般並拖動的網絡活動管道畫布。單擊設置選項卡並輸入以下值:
請注意
安全最佳實踐,當您使用自動化工具進行身份驗證,係統中,腳本和應用程序,磚屬於建議您使用個人訪問令牌服務主體而不是用戶工作區。為服務主體,創建令牌管理個人訪問令牌服務主體。
URL:
https:// < databricks-instance > / api / 2.0 /管道/ < pipeline-id > /更新
。取代
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.www.eheci.com
。取代
< pipeline-id >
管道標識符。方法:選擇帖子從下拉。
頭:點擊+新。在的名字文本框中,輸入
授權
。在價值文本框中,輸入持票人< personal-access-token >
。取代
< personal-access-token >
用一個磚個人訪問令牌。身體:通過額外的請求參數,輸入一個包含參數的JSON文檔。例如,開始一個更新和再加工的所有數據管道:
{“full_refresh”:"真正的"}
。如果沒有額外的請求參數,輸入空括號({}
)。
要測試Web活動,點擊調試在管道工具欄數據工廠的UI。的輸出和狀態運行,包括錯誤,顯示在輸出Azure的標簽數據工廠管道。使用三角洲住表界麵查看管道更新的詳細信息。