跳到主要內容
工程的博客

Databricks的開源基因組學工具包優於領先的工具

2021年11月17日 工程的博客

分享這篇文章

請查看解決方案加速器下載本博客中提到的筆記。

基因組技術正在推動從RNA疫苗到基因編輯和診斷的新療法的創造。這些領域的進展激勵我們繼續建設發光這是一個基因組學、機器學習和數據分析的開源工具包。該工具包是在Apache Spark™上構建的,Apache Spark™是大數據處理的領先引擎,可以實現人口規模的基因組學。

該項目最初是Databricks和Regeneron遺傳學中心之間的行業合作。其目標是通過為社區構建下一代基因組數據分析工具來推進研究。我們從生物信息學圖書館中獲得靈感,比如冰雹叮鈴聲而且bedtools,結合了一流的大規模數據處理技術。Glow現在的計算效率比業界領先的遺傳關聯研究工具高出10倍。

Glow和大規模基因組分析的願景

減緩基因組學發展的主要瓶頸是數據管理和分析的複雜性。我們的目標是讓沒有接受過生物信息學培訓的數據工程師和數據科學家能夠簡單地為分布式雲計算環境中的基因組數據處理做出貢獻。緩解這一瓶頸反過來又會在正反饋循環中推動對更多測序數據的需求。

何時使用Glow

Glow的應用領域是遺傳變異數據的聚合和挖掘。特別是對於需要多次迭代運行或需要幾個小時以上才能完成的數據分析,例如:

  1. 注釋管道
  2. 遺傳關聯研究
  3. 基於gpu的深度學習算法
  4. 將數據轉換成生物信息學工具。

的分布式實現作為一個例子Regenie方法.您可以在單個節點上運行Regenie,建議學術科學家使用。但是對於工業應用來說,Glow是世界上運行數千個關聯測試的最具成本效益和可擴展性的方法。讓我們來看看它是如何工作的。

對Glow與Hail進行基準測試

我們專注於基因關聯研究作為基準,因為它們是任何分析管道中計算最密集的步驟。輝光是>10倍的性能,Firth回歸相對於冰雹沒有交易的準確性(圖1).我們之所以能夠實現這一性能,是因為我們首先應用了近似方法,將完整方法限製為與疾病有暗示關聯的變體(P Glow文檔)。

Databricks SQL儀表板在模擬數據集上顯示Glow和Hail基準測試。
設置環境。

發光在Databricks湖屋平台Beplay体育安卓版本

我們有一個小的工程師團隊,在緊湊的時間內開發Glow。那麼,我們是如何趕上世界領先的生物醫學研究機構的呢?我們通過在Databricks Lakehouse平Beplay体育安卓版本台行業合作夥伴.Databricks提供基礎設施,使您的生產基因組數據分析。例如,你可以使用磚的工作要構建具有多個依賴項的複雜管道(圖2).

此外,Databricks是一個安全的平台,受到財富100強和醫療保健組Beplay体育安卓版本織的信任,擁有他們最敏感的數據,堅持數據治理的原則(公平)、保安及合規(HIPAA而且GDPR).

發光在Databricks湖屋平台Beplay体育安卓版本
圖2:Databricks Lakehouse平台上的GlowBeplay体育安卓版本

未來會發生什麼?

Glow現在已經達到了v1的成熟水平,我們正在尋求社區的幫助為構建和擴展它做出貢獻.有很多令人興奮的事情在等著你。

基因組數據集如此之大,以至於使用Apache Spark進行批處理可能會達到某些雲區域的容量限製。這個問題將由公開來解決三角洲湖格式,它統一了批處理和流處理。通過利用流,Delta Lake可以對新樣本或變體進行增量處理,並隔離邊緣情況以供進一步分析。結合輝光與三角洲湖將解決“n + 1問題”在基因組學。

基因組學研究的另一個問題是數據爆炸。僅在亞馬遜網絡服務上就有超過50份癌症基因組圖譜。今天提出的解決方案是一個有圍牆的花園,在基因組學領域平台內管理數據集。Beplay体育安卓版本這解決了數據複製問題,但隨後將數據鎖定到平台上。Beplay体育安卓版本

這種摩擦將得到緩解三角洲分享,這是一個用於大型數據集安全實時交換的開放協議,將使組織、雲和領域平台之間的數據共享成為可能。Beplay体育安卓版本統一目錄將使發現、審計和管理這些數據資產變得容易。

我們正處於基因組數據分析產業化的開端。欲了解更多,請參閱發光的文檔科技大談YouTube和研討會。

免費試用Databricks
看到所有工程的博客的帖子
Baidu
map