跳到主要內容
公司博客上

Lakehouse如何民主化數據以幫助安進加快藥物開發和交付

分享這篇文章

本文由安進公司的產品負責人Jaison Dominic和傑出軟件工程師Kerby Johnson共同撰寫。

安進公司長期以來,該公司一直是創新的代名詞。40年來,我們開創了新的製藥工藝,開發了拯救生命的藥物,對全球數百萬人的生活產生了積極影響。為了繼續履行我們的使命,為患者提供最好的服務,我們最近開始了另一次創新之旅:徹底的數字化轉型。

在重新思考如何利用我們的數據在整個業務中獲得更好的結果的過程中——從提高研發效率到優化供應鏈和商業化——很快就發現,我們的數據團隊正在尋求解決的問題類型在過去幾年裏發生了巨大的變化。此外,這些問題不再被技能、部門或職能所孤立。相反,最具影響力的問題本質上是跨職能的,需要將具有不同專業知識的人聚集在一起,以一種新穎的方式解決問題。在追求現代化的過程中,我們做出了選擇Databricks湖屋平台Beplay体育安卓版本作為我們數字化轉型之旅的基礎。因此,我們能夠在各個組織中釋放數據的潛力,簡化運營效率並加速藥物發現。

今天,我們分享我們的成功故事,希望其他人可以從我們的曆程中學習,並將其應用到自己的商業戰略中。

從數據倉庫到數據湖——以及其中的問題

在安進的三個核心垂直領域——臨床試驗、製造和商業化——蘊藏著大量有價值的數據。但是,數據量的增加給有效使用數據帶來了挑戰。

我們無法真正地將業務的各個方麵編織在一起,這影響了運營效率,因為我們在內部和客戶數量上都在擴大。beplay体育app下载地址關鍵是不僅要使訪問和處理數據變得容易,而且要以一種協作的方式做到這一點,這種方式將對數據有不同觀點的不同角色聯係在一起——一種能夠實現更好的跨職能協作的連接數據結構beplay娱乐ios。如果你隻從一兩個角度看問題,你就會錯過其他方麵有價值的關鍵點。

例如,考慮以下問題:你如何精細地預測需求,以便為有需要的患者生產適量的治療藥物?

如果你從供應鏈和製造業的角度來看待這個問題,你就會錯過商業銷售預測數據。另一方麵,你不想把商業銷售預測作為所需產量的福音,因為如果他們把銷售數字搞砸了怎麼辦,這一直是希望,而你低估了製造業需要生產的東西?

安進如何精確預測需求,為有需要的患者生產適量的治療藥物。

為了解決當今的問題,企業需要關注不同的數據關係和連接,以便他們可以從多個角度看待相同的數據——但他們如何實現這一點呢?在安進,我們將現代數據需求的基礎分解如下:

  • 數據需要有組織且易於使用。
  • 以自然的方式共享數據和重用他人的數據是必須的。
  • 分析應該能夠基於可信的共享數據視圖進行操作。
  • 從描述性(BI)到預測性(ML)的不同形式的分析有助於促進對一個版本的數據的新發現和預測。
  • 數據需要能夠隨著新類型的引入、從一個係統到另一個係統的變化、新領域的添加等而發展,但它的核心應該保持一致。

大多數組織可能都知道這樣做的必要性,但對於具有反直覺流程的企業來說,實現它尤其困難:每個團隊擁有、管理和組織數據的方式都不同,如果隻是想共享數據,就需要另一個項目。幾年來,我們不僅積累了太多的數據,不知道該怎麼處理,而且還缺乏流程和基礎設施,無法確保每個人都能處理相同的數據。

為了嚐試解決我們早期的數據需求,幾年前我們從傳統技術基礎設施過渡到基於hadoop的數據湖。使用Hadoop數據湖,我們能夠將結構化和非結構化數據保存在一個地方,但仍然存在重大的數據挑戰,無論是在技術方麵,還是在流程、成本和組織方麵。共享集群造成了“噪聲鄰居”問題,並且難以擴展且成本高。

作為平台的產品負責人,對於我來說,管理單個共享集群簡直就是噩夢。Beplay体育安卓版本它總是開著,從來沒有一個升級版本的好時機,我們有分布式成本,這意味著,例如,弄清楚如何向一個組收取高存儲容量和低計算容量的費用,而另一個組收取高計算容量和低存儲容量的費用。

這種方法還需要將各種不同的工具拚接在一起,以滿足每個單獨小組的需求,這帶來了重大的協作挑戰。和其他許多公司一樣,我們有多種終端用戶消費數據的方式:Jupyter notebook、R Studio、Spotfire和Tableau,這隻會增加數據的複雜性和挑戰,讓那些需要數據的人隨時可以獲得數據。

湖屋建築如何解決我們的問題

采用Databricks Lakehouse平台使各種團隊和角色能夠Beplay体育安卓版本使用我們的數據做更多的事情。有了這個統一和協作的平台,我們能夠為所有類型的beBeplay体育安卓版本12;lay娱乐ios用戶和他們首選的工具利用一個單一的環境,使操作得到一致的數據集的支持。

安進與Databricks Lakehouse的統一數據分析架構。

我們正在利用Delta Lake來實現ACID合規、曆史回溯,並通過為數據分析師和數據科學家提供一個公共數據層來使用數據優化供應鏈和改善運營,從而降低開發人員開始編碼的門檻。我們還利用AWS Glue將不同的Databricks環境連接在一起,因此無論數據存儲在一個AWS帳戶中還是10個不同的帳戶中,它都是一個數據湖。這些都是有聯係的。

這使我們能夠在標準化Apache Spark™數據和分析的同時,為各種需求提供足夠的靈活性。湖屋內的統一數據層使安進能夠可靠地處理任何類型和大小的數據,同時為應用團隊提供靈活的業務推進能力。

您想要多大的集群?你想花多少錢?哪一個更重要?是提前一小時完成報告,還是降低成本?像這樣的決定現在可以由單個團隊做出。總的來說,這種工具和語言的標準化,以及數據科學家、分析師和工程師的單一真相來源,開始實現相互聯係的團隊。

我們目前的數據架構使用Amazon S3作為所有數據的唯一真實來源,Delta Lake作為公共數據層,Glue數據目錄作為Databricks的集中式亞存儲,ELK堆棧用於Kibana監控,風流用於編排,消費(無論是分析師還是數據科學家)都在Databricks Lakehouse平台上操作。Beplay体育安卓版本

這種通用的數據體係結構以及集成這些體係結構模式使我們能夠將關注點從平台維護轉移到真正深入挖掘業務實際需要什麼以及用戶關心什麼。Beplay体育安卓版本關鍵在於我們能夠利用湖屋方法在各個數據團隊之間統一數據,同時與業務目標保持一致。

有了數據,從工程到數據科學再到分析師的各種數據團隊就可以訪問數據並進行協作。Databricks的協beplay娱乐ios作筆記本支持他們選擇的編程語言,可以輕鬆地探索並開始利用數據進行下遊分析和ML磚的SQL,我們的分析師可以找到和探索最新和新鮮的數據,而不必將其轉移到數據倉庫。他們可以在不犧牲性能的情況下運行查詢,並使用他們選擇的工具輕鬆地可視化結果——通過內置可視化和儀表板或Tableau(主要由整個公司的業務合作夥伴使用)。

我們的數據科學家也受益於使用Databricks機器學習由於Databricks ML建立在Delta Lake和MLflow的lakehouse基礎上,我們的數據科學家可以準備和處理數據,簡化跨團隊協作,並標準化從實驗到生產的整個生命周期,而不依賴於數據工程支持。這種改進的管理ML的方法對減少臨床試驗注冊所需的時間產生了直接影響。

通過連接數據和團隊改善患者的治療結果

Databricks Lakehouse平台的實施最終幫助我們繼續實現在現代世界中為患者服務和Beplay体育安卓版本改善藥物開發生命周期的目標。我們的數據攝取率顯著提高,處理時間縮短了75%,從而將洞察交付業務的速度提高了兩倍,同時比靜態Hadoop集群降低了約25%的計算成本。

有了Databricks,我們可以采用一種現代的方法,通過關注數據、關係和連接,而不僅僅是技術,來交付大量的用例。自2017年與Databricks合作以來,我們在整個公司都看到了巨大的增長。迄今為止,從數據工程師到分析師的2000多個數據用戶已經通過Databricks訪問了400TB的數據,以支持40多個數據湖項目和240個數據科學項目。

在4年多的時間裏,在安進,2000多名數據用戶(從數據工程師到分析師)通過Databricks訪問了400TB的數據,支持了40多個數據湖項目和240個數據科學項目。

在實踐中,這看起來很容易使用,很容易找到數據,使整個公司的許多用例成為可能:

  • 基因組探索和大規模研究:利用基因組數據的力量使我們能夠加速藥物發現過程,這可以顯著增加我們找到治療嚴重疾病的新藥的機會。
  • 優化的臨床試驗設計:現在我們可以從購買的數據到真實世界的證據,並利用這些廣泛的臨床數據中的見解來提高成功的可能性,並可能節省數千萬美元。
  • 供應鏈和庫存優化:生產效率和庫存管理是每個製造業麵臨的挑戰,藥品製造業也不例外。高效的生產和優化的供應鏈管理可以幫助企業節省數百萬美元,並幫助在正確的時間將正確的藥物提供給正確的患者。

通過與Databricks的合作,安進能夠更好地將其數據與需要的團隊連接起來,以改善患者和業務結果。

正如安進的成功所證明的那樣,解決老問題的新方案需要刷新企業的平台、工具和創新方法。Beplay体育安卓版本隨著該技術在安進的使用率不斷上升,我們將探索新的方法,利用像Delta Sharing這樣的工具,利用湖屋方法來促進協作和透明度。另一個可以提供價值的有趣工具是Delta Live Tables,它可以幫助我們進一步簡化ETL開發和管理,並使我們的下遊數據消費者受益。最終,Databricks幫助我們移動了高級分析的起跑線,因此我們可以花更多的時間來解決問題,使需要治療的患者受益,而不是花更少的時間來重建基礎設施。

下一個步驟

免費試用Databricks

相關的帖子

看到所有beplay体育app下载地址 的帖子
Baidu
map