現在通常可用:簡化數據和機器學習管道與編製工作
2021年11月1日 在Beplay体育安卓版本平台的博客
我們興奮地宣布的一般可用性工作編製,一個新功能,可以讓磚客戶輕鬆構建數據和機器學習的管道組成的多個相關的任務。beplay体育app下载地址
今天,數據管道經常被定義為一個序列依賴的任務簡化他們的一些複雜性。但是,他們仍然需要繁重的數據團隊和專門的工具來開發,管理、監控和可靠運行這樣的管道。這些工具通常是獨立於實際數據或機器學習任務。缺乏跨企業集成導致分裂的努力和用戶上下文切換。
探索為什麼lakehouses未來的數據架構與數據倉庫的父親,Bill Inmon。
與今天的發射,編排管道已經變得更為容易。策劃多步驟的工作使它簡單定義數據和ML管道使用相互依存,模塊化任務組成的筆記本,Python腳本和罐子。數據工程師可以很容易地創建和管理多步驟的變換和改進數據的管道,和機器學習算法訓練,所有熟悉的工作空間內的磚,拯救球隊巨大的時間和精力。
在上麵的示例中,包含多個任務的工作使用兩個任務來攝取數據:Clicks_Ingest Orders_Ingest。攝入數據過濾然後聚合在一起,在“匹配”的任務,機器學習的新特性(Build_Features),生成持久(Persist_Features),用來訓練新模式(火車)。
我們非常感謝成百上千的顧客提供反饋在一個成功的公共預覽版的工作編排與多個任務。beplay体育app下载地址根據他們的輸入,我們有進一步的改進:簡化調試工作流、信息麵板提供工作的概述,和一個新的2.1版本的API(工作AWS|Azure|GCP),以支持新的編排特點。
“工作編排是驚人的,比一個編排筆記本。我們的工作現在有多個任務,結果比我想象的更容易實現。我不能想象沒有磚實現此類數據管道。”- Omar Doma, Data Engineering Manager at BatchService
今天開始新工作編排現在通過啟用自己的工作區(AWS|Azure|GCP)。否則,auto-enablement將發生在接下來的幾個月。
在未來幾個月,我們將有可能在多個任務之間重用相同的集群的工作和修複失敗的工作而不需要一個完整的重新運行。我們也期待發射特性,將有可能與你現有的業務流程集成的工具