基因組變異分析了15分鍾
發現神經退行性疾病如阿爾茨海默氏症和帕金森氏症
生原體使用人類基因證據等級的藥物組合,發現新基因的目標,更好地理解生物神經係統疾病。但蒸餾pb級的基因組數據轉換成明確的基因型和表現型之間的聯係需要數據技術建立規模和適應——遺留解決方案是沒有資格處理。
大量的健康和福祉數據處理從英國生物庫的500000誌願者,生原體信息學麵臨重大挑戰。在現有的數據中心存儲容量不足在規模不可能收集和分析數據。他們的網絡帶寬無法處理如此多的信息傳輸和,2018年,這些問題導致了一周停機生原體的高性能計算集群。
“我們真的需要一個新的生原體數據範式,”大衛·塞克斯頓說的高級主管在生原體基因組技術和信息。“搬磚和雲幫助我們可視化和分析我們的基因組數據在pb級別。”
磚介紹了基因組學、磚的工作流運行時專門針對基因組數據,數據磚Lakehouse平台的一個組成部分。Beplay体育安卓版本它支持的全方位的需求,從最初的數據處理到大規模的統計分析。它還幫助移動數據團隊架構,他們可以使用開源技術加速攝入和大型數據集的分析。
合作DNAnexus和磚,生原體遷移他們的本地數據基礎設施雲到亞馬遜網絡服務(AWS)。這些共同努力簡化操作,並幫助降低平均數據處理時間。三角洲湖,生原體管道之前需要花了兩個星期的時間來處理700000個變異,並優化它注釋200萬個變異在大約15分鍾。
“英國生物庫的數據集是具有挑戰性的,因為它的規模和複雜性。有500000名參與者,我們正在處理數以百萬計的變異和數據點,我們需要理解,“Sexton說。“建立一個高質量的數據集,我們必須處理這些變量,並將它們與健康和評估數據,所有東西都結合到一個大型語料庫的數據,科學家們可以輕鬆查詢。”
現在所需的存儲和帶寬支持他們的努力,生原體可以專注於數據科學生產力和針對新療法。通過結合DNAnexus平台與磚基因組學,生原體能夠Beplay体育安卓版本使用英國生物庫數據來識別基因包含protein-truncating變異影響人類長壽和神經狀態。這些發現導致了兩個新的藥物靶點的識別和發掘見解神經退行性疾病如阿爾茨海默氏症和帕金森氏症。
“真正重要的數據是需要高質量的和一致的,“Sexton說。“磚允許我們專注於將特定的基因變異與特定疾病的科學——而不是浪費時間和帶寬上雲優化。”
確保高度精確,可查詢數據庫,生原體需要大量基於遺傳對數據進行分區的位置。如此多的元數據在成千上萬的列,垂直分區是至關重要的。這樣是安全的;這是非常重要的保護數據的完整性,係統正在建設和研究人員獲得。遷移到磚環境允許生原體拚接在許多方麵的複雜數據,並將火花蜂巢Metastore集成到他們的平台對親自監督數據安全訪問控製模型。Beplay体育安卓版本
“磚使我們找到許多在六個不同的基因變異,所有這一切人類壽命產生重大影響,”Sexton說。“我們已經能夠建立毫升模型,使我們能夠理解基因組變異如何影響其他藥物的功能和可能的成功發展。大大提高數據效率和發現,我們現在有一個獨特的機會來更好地理解複雜疾病的生物學和發展靶向療法來治療他們。”