在Databricks上編排數據處理工作流
Databricks提供了一套全麵的工具和集成來支持您的數據處理工作流。
使用Databricks Jobs進行數據處理或分析工作流程
可以使用Databricks作業在具有可伸縮資源的Databricks集群中運行數據處理或數據分析任務。您的工作可以由單個任務組成,也可以是具有複雜依賴關係的大型多任務工作流。Databricks管理所有作業的任務編排、集群管理、監視和錯誤報告。您可以通過一個易於使用的調度係統立即或定期運行作業。您可以使用筆記本、jar、Delta Live Tables管道或Python、Scala、Spark提交和Java應用程序實現作業任務。
您可以通過jobs UI、jobs API或Databricks CLI創建作業。Jobs UI允許監視、測試正在運行和已完成的作業,並排除故障。
開始:
創建您的第一個Databricks作業工作流快速入門.
了解如何使用Databricks作業創建、查看和運行工作流用戶界麵.
了解喬布斯API更新支持使用Databricks作業創建和管理工作流。
學習如何使用印度生物技術部的轉換在一個工作流。
使用Delta Live表轉換數據
Delta Live Tables是一個用於構建可靠、可維護和可測試的數據處理管道的框架。定義要對數據執行的轉換,Delta Live Tables管理任務編排、集群管理、監視、數據質量和錯誤處理。可以使用Delta Live Tables管道構建整個數據處理工作流,也可以將管道集成到Databricks作業工作流中,以編排複雜的數據處理工作流。
要開始,請參閱Delta Live Tables介紹.
與流行的編排工具集成
Databricks提供了與流行的編配工具(如Apache風流)的集成。看到管理數據管道中的依賴項.