客戶的故事

通過基於雲的AI推進疾病療法

200萬年

基因組變異分析了15分鍾

2藥物靶點

發現神經退行性疾病如阿爾茨海默氏症和帕金森氏症

客戶生原體
行業:生命科學
Beplay体育安卓版本平台用例:三角洲湖,數據科學,機器學習,ETL
:AWS

“磚允許我們專注於將特定的基因變異與特定疾病的科學——而不是浪費時間和帶寬上雲優化。”

——高級總監大衛·塞克斯頓基因組技術和信息,生原體

大規模基因組數據集轉換製藥公司怎樣生原體確定新的治療目標病人護理方法,提高現有治療方法的療效。但隨著投資組合的研究項目,他們的基礎設施和分析功能沒有準備管理巨大的基因組數據集包括數十億神經紊亂的結果。生原體把磚搬他們的本地數據基礎設施變成了AWS雲,大大減少了數據處理時間和增加帶寬跨團隊合作。通過提高可伸縮性和速度、疾病生物學家現在能夠加深他們了解遺傳變異,人類長壽,和神經狀態發展世界各地的治療和患者的治療方法。

pb級的基因組數據驅動現代化

生原體使用人類基因證據等級的藥物組合,發現新基因的目標,更好地理解生物神經係統疾病。但蒸餾pb級的基因組數據轉換成明確的基因型和表現型之間的聯係需要數據技術建立規模和適應——遺留解決方案是沒有資格處理。

大量的健康和福祉數據處理從英國生物庫的500000誌願者,生原體信息學麵臨重大挑戰。在現有的數據中心存儲容量不足在規模不可能收集和分析數據。他們的網絡帶寬無法處理如此多的信息傳輸和,2018年,這些問題導致了一周停機生原體的高性能計算集群。

“我們真的需要一個新的生原體數據範式,”大衛·塞克斯頓說的高級主管在生原體基因組技術和信息。“搬磚和雲幫助我們可視化和分析我們的基因組數據在pb級別。”

簡化信息和基礎設施的規模

磚介紹了基因組學、磚的工作流運行時專門針對基因組數據,數據磚Lakehouse平台的一個組成部分。Beplay体育安卓版本它支持的全方位的需求,從最初的數據處理到大規模的統計分析。它還幫助移動數據團隊架構,他們可以使用開源技術加速攝入和大型數據集的分析。

合作DNAnexus和磚,生原體遷移他們的本地數據基礎設施雲到亞馬遜網絡服務(AWS)。這些共同努力簡化操作,並幫助降低平均數據處理時間。三角洲湖,生原體管道之前需要花了兩個星期的時間來處理700000個變異,並優化它注釋200萬個變異在大約15分鍾。

“英國生物庫的數據集是具有挑戰性的,因為它的規模和複雜性。有500000名參與者,我們正在處理數以百萬計的變異和數據點,我們需要理解,“Sexton說。“建立一個高質量的數據集,我們必須處理這些變量,並將它們與健康和評估數據,所有東西都結合到一個大型語料庫的數據,科學家們可以輕鬆查詢。”

現在所需的存儲和帶寬支持他們的努力,生原體可以專注於數據科學生產力和針對新療法。通過結合DNAnexus平台與磚基因組學,生原體能夠Beplay体育安卓版本使用英國生物庫數據來識別基因包含protein-truncating變異影響人類長壽和神經狀態。這些發現導致了兩個新的藥物靶點的識別和發掘見解神經退行性疾病如阿爾茨海默氏症和帕金森氏症。

加快新發現的疾病治療和療法

“真正重要的數據是需要高質量的和一致的,“Sexton說。“磚允許我們專注於將特定的基因變異與特定疾病的科學——而不是浪費時間和帶寬上雲優化。”

確保高度精確,可查詢數據庫,生原體需要大量基於遺傳對數據進行分區的位置。如此多的元數據在成千上萬的列,垂直分區是至關重要的。這樣是安全的;這是非常重要的保護數據的完整性,係統正在建設和研究人員獲得。遷移到磚環境允許生原體拚接在許多方麵的複雜數據,並將火花蜂巢Metastore集成到他們的平台對親自監督數據安全訪問控製模型。Beplay体育安卓版本

“磚使我們找到許多在六個不同的基因變異,所有這一切人類壽命產生重大影響,”Sexton說。“我們已經能夠建立毫升模型,使我們能夠理解基因組變異如何影響其他藥物的功能和可能的成功發展。大大提高數據效率和發現,我們現在有一個獨特的機會來更好地理解複雜疾病的生物學和發展靶向療法來治療他們。”

Baidu
map