跳轉到主要內容
Beplay体育安卓版本平台的博客

為什麼我們從Apache氣流遷移到磚在YipitData工作流嗎

分享這篇文章

這是一個協作的磚和Ybeplay娱乐iosipitData。我們感謝工程部經理Hillevi Crognale在YipitData為她捐款。

YipitData是可信的見解從替代數據來源世界領先的投資基金和公司。我們分析數以十億美元計的數據點每日提供準確、詳細的見解在許多行業,包括零售、電子商務市場,隨意組合,支付等等。我們的團隊使用磚和磚工作流的清潔和分析海量數據,許多世界上最大的投資基金和企業依賴。

YipitData的500名員工,300多有一個磚賬戶,最大的部分是數據分析師。磚平台和滲透在我們公司的成功在Beplay体育安卓版本很大程度上是由於擁有強大的企業文化。我們相信,分析師應該擁有和管理所有工程團隊與中央數據的ETL的端到端支持他們通過護欄,工具和管理平台。Beplay体育安卓版本

采用磚工作流

曆史上,我們已經依賴於Apache氣流上安裝一個定製的數據編配的磚。數據編配是至關重要的對我們的業務操作,我們的產品是來自加入成百上千的不同數據源在pb級別Lakehouse每天節奏。這些數據流表示為氣流無進取心的人使用磚運營商

數據分析師YipitData設置和管理他們的無進取心的人通過一個定製的框架由我們的工程數據平台開發團隊,並表示轉換,依賴性和集群的t恤大小在單獨的筆記本。Beplay体育安卓版本

我們決定遷移到磚的工作流今年早些時候。工作流是一個磚Lakehouse托管的服務,讓我們的用戶建立和管理可靠數據分析工作流在雲中,給我們的規模和處理能力,我們需要幹淨,將大量的數據我們坐在。此外,它的易用性和靈活性意味著我們的分析師可以花更少的時間建立和管理業務流程,而是專注於真正重要的,使用數據來回答客戶的關鍵問題。

與600多名熟練的技藝活躍在氣流在此之前遷移,我們執行每日8000數據轉換任務。我們的分析師愛生產力順風從策劃他們的工作,和我們的公司已經成功地從他們這樣做。

挑戰與Apache氣流

而氣流是一種強大的工具,很好用,它對我們的用例有幾個缺點:

  • 學習氣流需要投入大量時間,特別是我們的自定義設置。工具的設計工程師,數據分析師。因此,新員工培訓新用戶需要更長的時間,並需要更多的努力在創建和維護培訓材料。
  • 與一個單獨的應用程序之外的磚,有延遲誘導隻要運行一個命令,和實際執行的任務是一個黑盒,證明困難給我們的許多裝飾邊運行幾個小時。缺乏可見性介紹再反饋循環,和更多的時間沒有答案。
  • 有一個自定義應用程序意味著額外的開銷和複雜數據平台工程團隊在開發工具或管理平台。Beplay体育安卓版本經常需要因素在這個單獨的應用程序從火花版本升級到數據治理更加複雜。
“如果我們回到2018年和磚工作流是可用的,我們就不會考慮構建一個定製的氣流設置。我們隻會使用工作流。”

介紹了磚工作流後,很明顯,這將是未來。我們的目標是讓我們的用戶做他們所有的ETL數據磚,端到端。我們使用磚Lakehouse平台的越多,就越容易從用戶體驗,和數據管理和治理的視角。Beplay体育安卓版本

我們怎麼了

總體來說,遷移工作流相對光滑。因為我們已經使用磚筆記本在每個氣流DAG任務,這是一個創建一個工作流的問題而不是氣流DAG的基礎上設置,依賴性和集群配置中定義的氣流。使用磚api,我們創建了一個腳本自動化大多數的遷移過程。

新磚工作流解決方案

“對我們來說,磚是成為我們所有的ETL的一站式商店工作。我們使用Lakehouse平台越多,就越容易為用戶和管理員平台。”Beplay体育安卓版本

工作流有幾個功能,大大受益:

  • 和直觀的用戶界麵本身的磚工作區,易用性作為編製工具為我們的磚用戶是無與倫比的。創建和維護工作流需要較少的開銷,釋放時間專注於其他領域。
  • 新員工培訓新用戶更快。起床對工作流的速度明顯比培訓新員工對我們的自定義設置氣流通過一組筆記本和api。因此,我們的團隊花更少的時間在編排培訓和新員工生成數據洞察力周的速度比以前更快了。
  • 能夠深入現有運行的任務並檢查的進展尤其有幫助我們的許多任務運行幾個小時結束。這個解鎖更快的反饋,讓用戶更快的迭代工作。
  • 住在磚與其他生態係統無縫集成的功能和服務,如統一目錄,目前我們遷移到。能夠依靠磚繼續發展和發布新功能的工作流工具,和擁有一個獨立的氣流應用和維護和支持自己,消除對我們的工程團隊大量的開銷。
  • 工作流是一個非常可靠的編排服務給成千上萬的集群我們每天發布任務和工作。在過去,我們會把一些招聘保持氣流基礎設施現在不必要的。這使我們的工程師對我們的業務產生更多的價值。

磚平台讓我們的管理和處理數據的Beplay体育安卓版本速度和規模,我們需要是一個破壞性的經濟領先的市場研究公司。采用工作流作為我們編製工具是一個自然的一步考慮到集成與平台,我們已經和我們的成功經曆。Beplay体育安卓版本當我們可以讓用戶擁有自己的工作和更有效地完成自己的工作,每個人都贏了。

想要了解更多關於磚工作流查看磚工作流的頁麵,看工作流程演示享受和端到端演示磚工作流編排流數據和ML的管道在磚演示中心

免費試著磚

相關的帖子

看到所有Beplay体育安卓版本平台的博客的帖子
Baidu
map