LAKEHOUSE產品焦點:工作流

工作流支持自動化和能源領域的合作

120億年

每周數據點處理

80 - 90%

減少處理時間

節約成本

在通過工作流自動化操作

wood-mackenzie-header-image
Beplay体育安卓版本平台用例:Lakehouse,工作流
:AWS

“我們的使命是改變我們力量的方式。在能源行業客戶需要數據,谘詢服務和研究來實現這一轉換。磚工作流給我們的速度和靈活性提供需要客戶的洞察力。”

副總裁-吳Yanyan數據,Wood Mackenzie

Wood Mackenzie提供定製為廣泛的客戶谘詢和分析在能源和自然資源領域。公司最早成立於愛丁堡,培養深度專業上遊石油和天然氣,然後擴大其專注提供詳細了解每一個相互關聯的領域的能源、化工、金屬和礦業產業。今天它把自己扮演了重要角色的過渡到一個更可持續的未來。使用磚工作流自動化的ETL管道幫助Wood Mackenzie接收和處理大量的數據。使用一個通用工作流提供了更高的可見性工程團隊成員,鼓勵更好的合作。自動化,透明的工作流程,團隊看到提高工作效率和數據質量和一個路徑更容易修複管道問題當他們出現。

能源行業提供見解

實現Wood Mackenzie的使命,鏡頭產品是一種數據分析平台構建提供見解在客戶在能源領域的關鍵決策點。beplay体育app下载地址Beplay体育安卓版本喂養鏡頭收集大量的數據從不同的數據源和傳感器用於監測創造能源,石油和天然氣生產,等等。這些數據源更新每周約120億數據點,必須攝取,清洗和加工透鏡的輸入平台的一部分。Beplay体育安卓版本副總裁吳Yanyan Wood Mackenzie的數據管理大數據的專業團隊,建立和維護提供了輸入數據的ETL管道鏡頭。團隊利用磚Lakehouse並行處理平台,使用Apache火花™,它提供了更好的性能和可伸縮性的Beplay体育安卓版本好處相比,早期單節點係統工作順序。“我們看到80 - 90%的減少數據處理時間,導致我們為我們的客戶提供更多的更新,更全麵和更準確的數據,”Wu說。

改進的協作與通用工作流和透明度

管道管理的數據標準化和清潔團隊包括幾個階段的原始數據,可以結構化或非結構化的形式,可能pdf甚至手寫筆記。

不同數據的團隊成員負責管道的不同部分,有一個處理階段每個團隊成員擁有之間的依賴關係。使用磚的工作流共同一工作流程定義的團隊,整個團隊使用。每個階段的管道是在Python實現筆記本,這是作為工作的主要運行工作流。

每個團隊成員可以看到什麼代碼運行在每個階段,因此很容易找到問題的原因。知道誰擁有的起源問題的管道可以更快地解決問題。“沒有通用工作流,不同成員的團隊將獨立運行他們的筆記本電腦,不知道失敗在他們的運行影響下遊階段,“孟小姐說張校長Wood Mackenzie的數據分析師。“當試圖重新運行筆記本,很難說這筆記本版本最初運行和使用最新的版本。”

使用工作流的報警功能通知團隊工作流任務失敗時確保每個人都知道發生了故障,允許團隊共同努力,迅速解決問題。創建一個通用工作流的定義一致性和透明度,使合作更容易。“使用磚工作流允許我們鼓勵協作和分解過程的不同階段之間的牆,“吳解釋道。“這讓我們都說同樣的語言。”

創造透明度和一致性並不是唯一的優勢團隊看到。使用工作流自動化筆記本運行也導致節約成本相比,手動運行交互式筆記本。

提高了代碼開發的效率

團隊的ETL管道開發過程包括迭代PySpark筆記本。利用互動的筆記本在磚UI團隊中的數據專業人員更容易手動開發和測試一個筆記本。因為磚工作流支持筆記本電腦運行的任務類型(連同Python文件、JAR文件和其他類型),當代碼已經準備好生產,很容易和成本有效的自動化它通過添加一個工作流。工作流可以輕易修改,添加或刪除任何步驟或從定義的流。這種工作方式使手動的好處與互動發展筆記本筆記本用戶界麵,利用自動化的力量,這樣可以減少手動筆記本運行時可能發生的潛在問題。

團隊已經在提高生產力進一步發展中CI / CD的過程。“通過連接我們的源代碼控製代碼存儲庫,我們知道工作流總是最新的代碼運行版本我們承諾回購,”張解釋道。“也很容易切換到開發部門開發一個新功能,修複一個缺陷並運行一個開發工作流程。當代碼通過所有的測試,這是回到主幹合並生產工作流程是自動更新最新的代碼”。

展望未來,Wood Mackenzie計劃優化其使用磚工作流的自動化機器學習過程等模型訓練,漂移模型監測和處理模型。該公司使用毫升提高數據質量和提取見解為其客戶提供更多的價值。“我們的任務是努力改變我們的實力,”吳說。“我們的客戶在能源領域需要數據,谘詢服務和研究來實現這一轉換。磚工作流給我們的速度和靈活性提供需要客戶的洞察力。”

Baidu
map