通過“修複和重新運行”節省數據和機器學習工作流程的時間和金錢
2022年5月6日 在Beplay体育安卓版本平台的博客
磚的工作是您所有數據、分析和人工智能的完全托管協調器。它使任何用戶都可以輕鬆地創建和運行具有多個任務的工作流,並定義任務之間的依賴關係。這使得代碼模塊化、更快的測試、更有效的資源利用和更容易的故障排除成為可能。與底層lakehouse平台的深度集成可確保工作負載在生產中可靠,同時提供全麵的監控和可擴展性Beplay体育安卓版本。
為了支持現實生活中的數據和機器學習用例,組織需要構建具有許多不同任務和依賴關係的複雜工作流,從數據攝取和ETL到ML模型培訓和服務。這些任務中的每一個都需要按照特定的順序執行。
但是,當工作流中的一個重要任務失敗時,它會影響下遊的所有相關任務。要恢複工作流,您需要知道所有受影響的任務,以及如何在不從頭開始重新處理整個管道的情況下處理它們。Databricks作業中新的“修複和重新運行”功能就是為了解決這個問題而設計的。
考慮下麵的示例,該示例從一個API檢索公交車站的信息,然後嚐試從另一個API獲取每個車站的實時天氣信息。然後,所有這些API調用的結果將被攝取、轉換和聚合Delta Live Tables的任務。
在正常操作期間,此工作流將從頭到尾成功運行。但是,如果檢索天氣數據的任務失敗會發生什麼呢?也許天氣API由於某種原因暫時不可用。在這種情況下,Delta Live Tables任務將被跳過,因為一個上遊依賴項失敗了。顯然,我們需要重新運行我們的工作流,但是從頭開始整個過程將花費時間和資源來重新處理所有的station_information數據。
新推出的“修複和重新運行”功能不僅可以準確顯示工作中發生故障的位置,還可以讓您重新運行所有受影響的任務。這節省了大量的時間和成本,因為您不需要重新處理已經成功的任務。
如果作業運行失敗,您現在可以單擊“修複運行”開始重新運行。彈出窗口將顯示將執行哪些剩餘任務
然後為新運行提供一個唯一的版本號,該版本號與失敗的父運行相關聯,從而易於查看和分析曆史失敗。
當任務失敗時,Databricks作業的“修複和重新運行”可幫助您快速修複生產管道。直觀的UI顯示了哪些任務受到了影響,這樣您就可以在不重新運行整個流程的情況下修複問題。這節省了時間和精力,同時提供了深刻的見解,以減輕未來的問題。
“修複和重新運行”現在是一般可用(GA),緊隨最近推出集群重用.
接下來是什麼
我們對即將到來的路線圖感到興奮,並期待著收到你的來信.