海量的基因組數據集正在改變像百健這樣的製藥公司如何為患者護理的治療方法確定新的靶點,並提高現有治療的療效。但隨著百健的研究項目組合不斷擴大,他們的基礎設施和分析能力還沒有準備好管理由數十億個神經疾病發現組成的龐大基因組數據集。百健求助於Databricks,將他們的本地數據基礎設施轉移到AWS雲上,這大大減少了數據處理時間,並增加了合作團隊之間的帶寬。通過提高可擴展性和速度,疾病生物學家現在能夠加深他們對基因變異、人類壽命和神經狀態的理解,為世界各地的患者開發治療方法和治療方法。
百健利用人類基因證據對他們的藥物組合進行排序,發現新的基因靶點,並更好地了解神經疾病生物學。但是,要將千兆字節的基因組數據提煉出基因型和表現型之間的明確聯係,需要建立可擴展和適應的數據技術——這是傳統解決方案無法處理的。
由於需要處理來自英國生物銀行50萬名誌願者參與者的大量健康和福祉數據,Biogen麵臨著重大的信息挑戰。他們現有的數據中心存儲容量不足,無法大規模收集和分析數據。他們的網絡帶寬無法處理如此多的信息傳輸,在2018年,這些問題導致百健的高性能計算集群中斷了一周。
“我們真的需要為百健提供一種新的數據範式,”百健基因組技術和信息學高級總監戴維·塞克斯頓(David Sexton)說。“遷移到Databricks和雲幫助我們在拍字節級別上可視化和分析我們的基因組數據。”
Databricks推出了基因組學的Databricks,這是一個專門針對基因組數據工作流的運行時,也是Databricks湖屋平台的一個組件。Beplay体育安卓版本它支持百健的全方位需求,從初始數據處理到大規模統計分析。它還幫助他們的數據團隊遷移到一個可以使用開源技術加速大型數據集的吸收和分析的架構中。
與DNAnexus和Databricks合作,Biogen將其內部數據基礎設施遷移到亞馬遜網絡服務(AWS)雲上。這些共同努力簡化了操作,並有助於減少平均數據處理時間。在Delta Lake項目中,Biogen采用了之前需要2周時間來處理70萬個變體的管道,並將其優化為在大約15分鍾內注釋200萬個變體。
“英國生物銀行的數據集具有挑戰性,因為其龐大的規模和複雜性。有50萬參與者,我們需要處理數百萬個變量和數據點。”塞克斯頓說道。“為了建立一個高質量的數據集,我們必須處理這些變量,將它們與健康和評估數據結合起來,並將所有內容組合成一個大型的數據語料庫,然後科學家可以輕鬆地查詢。”
有了現在所需的存儲和帶寬支持他們的工作,Biogen可以專注於數據科學生產力和針對新療法。通過結合DNAnexus平台和Databricks Beplay体育安卓版本for Genomics, Biogen能夠使用英國Biobank的數據來識別含有影響人類壽命和神經狀態的蛋白質截斷變體的基因。這些發現導致了兩種新的藥物靶點的確定,並對阿爾茨海默病和帕金森病等神經退行性疾病有了新的認識。
塞克斯頓說:“關於這些數據,真正重要的是它需要高質量和一致性。”“Databricks使我們能夠專注於將特定的基因變異與特定的疾病相匹配的科學——而不是在雲優化上浪費時間和帶寬。”
為了確保數據庫的高度準確性和可查詢性,Biogen需要能夠基於基因位置對數據進行大量分區。對於跨越數千列的如此多元數據,垂直分區非常關鍵。安全也是如此;在係統建設和研究人員獲得訪問權限的過程中,保護數據的完整性是非常重要的。遷移到Databricks環境允許Biogen以多種方式拚接複雜的數據,並將Spark Hive Metastore集成到他們的平台訪問控製模型中,以實際監督數據安全。Beplay体育安卓版本
塞克斯頓說:“Databricks使我們能夠在大約6個不同的基因中找到許多變體,所有這些基因都對人類壽命有重大影響。”“我們已經能夠建立ML模型,讓我們了解基因組變異如何影響功能,以及我們正在開發的其他藥物可能取得的成功。隨著數據效率和發現能力的大幅提高,我們現在有了一個獨特的機會,可以更好地了解複雜疾病的生物學,並開發出治療它們的靶向療法。”
Databricks使我們能夠專注於將特定的基因變異與特定的疾病相匹配的科學,而不是在雲優化上浪費時間和帶寬。”
- Biogen基因組技術和信息學高級總監David Sexton