Lakehouse如何將數據民主化以幫助安進加速藥物開發和交付

這是一篇由安進公司產品負責人Jaison Dominic和傑出軟件工程師Kerby Johnson撰寫的客座文章。

安進公司這家全球最大的獨立生物技術公司一直是創新的代名詞。40年來,我們開創了新的製藥工藝,開發了挽救生命的藥物,對世界各地數百萬人的生活產生了積極影響。為了繼續履行我們的使命,為患者提供最好的服務,我們最近開啟了另一段創新之旅:徹底的數字化轉型。

在重新思考如何利用我們的數據來實現更好的業務結果的過程中——從提高研發效率到優化供應鏈和商業化——很明顯,我們的數據團隊希望解決的問題類型在過去幾年中發生了巨大的變化。此外,這些問題不再被技能、部門或職能所孤立。相反,最具影響力的問題本質上是跨職能的,需要把具有不同、獨特專長的人聚集在一起,以一種新穎的方式解決問題。在追求現代化的過程中,我們做出了選擇Databricks湖屋平台Beplay体育安卓版本作為我們數字化轉型之旅的基礎。因此,我們能夠在不同的組織中釋放我們數據的潛力,簡化操作效率並加速藥物發現。

今天,我們將分享我們的成功故事,希望其他人可以從我們的經曆中學習,並將其應用到自己的商業戰略中。

從數據倉庫到數據湖——以及其中的問題

安進的三個核心垂直領域——臨床試驗、製造和商業化——擁有大量有價值的數據。但是,隨著數據量的增加,要真正有效地使用這些數據就會麵臨挑戰。

我們無法將業務的各個方麵真正結合在一起,這影響了我們在內部和客戶數量上的運營效率。beplay体育app下载地址關鍵是不僅要使訪問和處理數據變得容易,而且要以一種協作的方式,將對數據有不同觀點的不同角色聯係在一起——一個連接的數據結構,可以更好地實現跨功能協作。beplay娱乐ios如果你隻從一個或兩個角度看問題,你就會錯過其他人有價值的關鍵點。

例如,考慮以下問題:你如何精確地預測需求,從而為有需要的患者提供適當數量的治療藥物?

如果你從供應鏈和製造業的角度來看待這個問題,你就會錯過商業銷售預測數據。另一方麵,你不希望把商業銷售預測作為需要生產數量的福音,因為如果他們的銷售數字打破了水,這總是希望,你低估了製造業需要生產的東西?

安進如何精確預測需求,為有需要的患者生產適量的治療藥物。

為了解決當今的問題,企業需要關注不同的數據關係和連接,以便能夠從多個角度觀察相同的數據——但他們如何實現這一點呢?在安進,我們將現代數據需求的基礎分解如下:

  • 數據需要有組織且易於使用。
  • 以自然的方式共享數據和重用他人的數據是必須的。
  • 分析應該能夠基於一個可信的共享數據視圖進行操作。
  • 從描述性(BI)到預測性(ML)的不同形式的分析有助於促進對一個數據版本的新發現和預測。
  • 數據需要能夠隨著新類型的引入、從一個係統到另一個係統的變化、新域的添加等而發展,但其核心應該保持一致。

大多數組織可能都知道需要這樣做,但對於具有反直覺流程的企業來說,要實現它尤其困難:每個團隊擁有、管理和組織他們的數據的方式不同,如果他們隻是想共享數據,就需要另一個項目。幾年來,我們不僅積累了太多的數據,不知道該怎麼處理,而且缺乏流程和基礎設施,無法確保每個人都能使用相同的數據。

為了嚐試解決我們早期的數據需求,幾年前我們從遺留的技術基礎設施過渡到基於hadoop的數據湖。通過Hadoop數據湖,我們能夠將結構化和非結構化數據放在一個地方,但仍然存在重大的數據挑戰,無論是在技術方麵,還是在流程、成本和組織方麵。共享集群導致了“噪聲鄰居”問題,且難以擴展且成本高昂。

對於我的角色來說,作為平台的產品所有者,管理單個共享集群是一場噩夢。Beplay体育安卓版本它總是開著,從來沒有升級版本的好時機,我們有分散的成本,這意味著,例如,弄清楚如何向一組人收取高存儲和低計算的費用,而向另一組人收取高計算和低存儲的費用。

這種方法還需要將各種不同的工具拚接在一起,以滿足每個單獨小組的需求,這就產生了重大的協作挑戰。和其他許多公司一樣,我們有多種終端用戶消費數據的方式:Jupyter notebook、R Studio、Spotfire和Tableau,這隻會增加數據的複雜性和挑戰,讓那些需要它的人隨時可以獲得數據。

湖屋建築如何解決我們的問題

采用Databricks Lakehouse平台使各種團隊和角色能夠Beplay体育安卓版本對我們的數據做更多的工作。有了這個統一和協作的平台,我們已經能夠為所有類beBeplay体育安卓版本12;lay娱乐ios型的用戶及其首選的工具利用一個單一的環境,使操作得到一致的數據集的支持。

安進與Databricks Lakehouse的統一數據分析架構。

我們利用Delta Lake來實現ACID的遵從性、曆史回溯,並通過為數據分析師和數據科學家等提供一個公共數據層來降低開發人員開始編碼的門檻,從而利用數據優化供應鏈和改進運營。我們還利用AWS Glue將不同的Databricks環境連接在一起,因此它是一個數據湖——無論數據存儲在一個AWS帳戶還是10個不同的帳戶中。這都是相連的。

這使我們能夠在標準化Apache Spark™數據和分析的同時,為各種需求提供足夠的靈活性。湖屋內部的統一數據層允許安進可靠地處理任何類型和大小的數據,同時為應用團隊提供推動業務向前發展的靈活性。

您想要多大的集群?你想花多少錢?是加快一小時完成報告更重要,還是削減成本更重要?這樣的決定現在可以由各個團隊來做。總的來說,這種工具和語言的標準化,以及為數據科學家、分析師和工程師提供的單一真相來源,是開始實現連接團隊的原因。

我們目前的數據架構使用Amazon S3作為所有數據的唯一真實來源,Delta Lake作為公共數據層,Glue數據目錄作為Databricks的中央轉移存儲,ELK堆棧用於Kibana的監控,workflow用於編排和消費,無論是分析師還是數據科學家,所有這些都在Databricks Lakehouse平台上運行。Beplay体育安卓版本

這種通用的數據體係結構以及對這些體係結構模式的集成使我們能夠將關注點從平台維護轉移到真正深入挖掘業務實際需要什麼以及用戶關心什麼。Beplay体育安卓版本關鍵是我們能夠利用湖屋方法在不同數據團隊之間統一數據,同時與我們的業務目標保持一致。

有了準備好的數據,從工程到數據科學再到分析師的各種數據團隊都可以訪問數據並在數據上進行協作。Databricks的協beplay娱乐ios作筆記本支持他們選擇的編程語言,可以輕鬆地探索並開始利用數據進行下遊分析和ML磚的SQL,我們的分析師可以找到和探索最新和最新的數據,而不必將其轉移到數據倉庫。他們可以在不犧牲性能的情況下運行查詢,並且可以使用他們選擇的工具輕鬆地可視化結果——可以通過內置的可視化和儀表板,也可以通過Tableau(主要由整個公司的業務合作夥伴使用)。

我們的數據科學家也受益於使用磚機器學習由於Databricks ML是建立在Delta Lake和MLflow的Lake house基礎上,我們的數據科學家可以準備和處理數據,簡化跨團隊協作,並將從實驗到生產的整個生命周期標準化,而無需依賴數據工程支持。這種改進的ML管理方法對縮短臨床試驗注冊時間產生了直接影響。

通過連接數據和團隊改善患者預後

Databricks湖屋平台的實施最終幫助我們繼續實現為患者服務的目標,並在現代世界中改善藥物Beplay体育安卓版本開發生命周期。我們的數據攝取率顯著提高,處理時間提高了75%,從而使向業務交付見解的速度加快了兩倍,同時比靜態Hadoop集群降低了約25%的計算成本。

有了Databricks,我們可以采用一種現代的方法,通過關注數據、關係和連接,而不僅僅是技術,來交付無數的用例。自2017年與Databricks合作以來,我們看到了整個公司的大幅增長。到目前為止,2000多個數據用戶,從數據工程師到分析師,已經通過Databricks訪問了400TB的數據,支持40多個數據湖項目和240個數據科學項目。

在過去4年多的時間裏,在安進,2000多名從數據工程師到分析師的數據用戶通過Databricks訪問了400TB的數據,支持了40多個數據湖項目和240多個數據科學項目。

在實踐中,這看起來很容易使用,很容易找到數據,從而支持整個公司的許多用例:

  • 基因組探索和大規模研究:利用基因組數據的力量使我們可以加快藥物發現過程,這可以顯著增加我們發現治療嚴重疾病的新藥的機會。
  • 優化的臨床試驗設計:現在我們可以引入從購買的數據到現實世界的證據的各種數據,並利用這些廣泛的臨床數據的見解來提高成功的可能性,並潛在地節省數千萬美元。
  • 供應鏈和庫存優化:生產效率和庫存管理是每個製造行業的挑戰,藥品製造也不例外。高效的生產和優化的供應鏈管理可以幫助企業節省數百萬美元,並幫助在正確的時間將正確的藥物提供給正確的患者。

通過與Databricks的合作,安進能夠更好地將其數據與需要的團隊連接起來,以改善患者和業務結果。

正如安進的成功所證明的那樣,解決老問題的新方法需要刷新企業的平台、工具和創新方法。Beplay体育安卓版本隨著安進公司采用這種方法的人數不斷增加,我們將探索新的方法,利用湖濱小屋的方法,通過Delta Sharing等工具促進協作和透明度。另一個可以提供價值的有趣工具是Delta Live Tables,它可以幫助我們進一步簡化ETL開發和管理,並使我們的下遊數據消費者受益。最終,Databricks幫助我們移動了高級分析的起跑線,因此我們可以花更多的時間解決問題,從而使需要治療的患者受益,而不用花更少的時間重建基礎設施。

下一個步驟

免費嚐試Databricks 開始

報名

Baidu
map