客戶故事
發現新的
用AI的治療方法

行業:生命科學

解決方案:遺傳協會研究

Beplay体育安卓版本平台用例:三角洲湖數據科學機器學習Etl.

雲:AWS.

Regeneron的使命是利用基因組數據的力量,將新藥帶給有需要的患者。然而,將這種數據轉化為生活不斷變化的發現和有針對性的治療從未如此具有挑戰性。由於處理性能和可擴展性限製差,他們的數據團隊缺乏分析基因組和臨床數據的卑鄙。Databricks現在授權他們快速分析整個基因組數據集,以加速新的治療方法的發現。

分散的基因組數據阻塞機學習

預計目前在藥物開發管道中的所有實驗藥物的95%以上將失敗。為了提高這些努力,Regeneron Genetics Center通過將序列的溢出和超過100萬人的電子健康記錄配對,構成了最全麵的遺傳數據庫之一。但是,他們麵臨著眾多挑戰,分析了這種大規模的數據集:

  • 基因組和臨床數據具有高度分散化,使得在整個10TB數據集中難以分析和培訓模型。
  • 擴展其遺留架構難以且昂貴,以支持超過8000億多個數據點的分析。
  • 數據團隊正在花費時間隻是試圖確定數據,以便它可以用於分析。

Databricks以簡化的基礎設施和ML為單位

Databricks為Regeneron提供了一個在AWS上運行的Lakehouse平台,通過Beplay体育安卓版本改善數據科學生產力來簡化操作並加速藥物發現。這是為了以先前不可能的方式分析數據以分析數據。

  • 自動群集管理:簡化了集群的配置,減少了在Devops工作的時間所花費的時間,因此工程師和數據科學家可以在高價值任務上花費更多時間。
  • 互動工作空間:允許數據科學家共享數據和見解,培養整個藥物開發生命周期的透明度和合作環境。
  • 性能的火花動力流水線:用於處理其10TB的EHR + DNAseQ數據的ETL管道的可靠性和速度顯著提高。

更快地發現新藥和療法

使用DataBricks,Regeneron的團隊不再需要在Devops工作建立和維護基礎架構上浪費過多的資源來支持他們的分析。如今,生物信息學團隊,數據科學家和計算生物學家可以花更多的時間在高度有價值的任務上,例如開發新的新療法。

  • 加速藥物目標識別:減少了數據科學家和計算生物學家在整個數據集中運行查詢的時間從30分鍾到下3秒 - 600x改進!
  • 提高生產力:改進的合作,自動化Devops和加速管道(2天內的ETL 3周)使他們的團隊能夠支持更廣泛的研究。

  • 600倍
    整個數據集上查詢運行時的改進
  • 10x
    更快的數據流水線使團隊能夠支持更多研究

Databricks LakeHouse平台使我們Beplay体育安卓版本的綜合藥物開發過程中的每個人都能從醫生 - 科學家到計算生物學家 - 以輕鬆訪問,分析和提取我們所有數據的洞察力。“

- 傑弗裏裏德,博士,Regeneron的基因組信息學主管

相關內容


2019年Spark + Ai峰會歐盟的技術洽談

Baidu
map