Databricks Runtime 7.0 for Genomics(不支持)

數據ricks在2020年6月發布了這張圖片。

Databricks Runtime 7.0 for Genomics是一個版本Databricks Runtime 7.0(不支持)優化處理基因組和生物醫學數據。它是Databricks基因組學統一分析平台的組成部分。Beplay体育安卓版本

有關更多信息,包括為Genomics集群創建Databricks Runtime的說明,請參見基因組學導遊.有關開發基因組學應用程序的更多信息,請參見基因組學導遊

新功能

Databricks Runtime 7.0 for Genomics是在Databricks Runtime 7.0的基礎上構建的。有關Databricks Runtime 7.0中新增內容的信息,請參見Databricks Runtime 7.0(不支持)發行說明。

GloWGR:全基因組回歸

Glow現在包括一個可擴展的全基因組回歸方法,GloWGR。GloWGR是單節點工具的分布式版本regenie.GloWGR是一種適合企業使用的工具,它提供了與其他全基因組回歸方法相當的精度,但在速度上有數量級的提高。有關詳細信息,請參見全基因組的回歸在開源的。

變形金剛接受非字符串類型的參數

所有輝光轉換器,包括管道轉換器和變量規範化器,現在都接受值不是字符串的參數。的管道變壓器的輝光文檔反映新的用法。為了向後兼容,所有參數仍然接受字符串值。

Numpy ndarray文字

現在可以將字麵numpy 1D和2D浮點類型ndarray傳遞給需要帶類型的DataFrame列的函數數組<二>而且DenseMatrix分別。的光芒全基因組關聯研究文檔演示新用法。

意思是替換函數

現在提供發光mean_substitute函數用非缺失值的平均值替換數組中的缺失值。

改進

聯合基因分型的性能

的表現聯合基因分型管道提高了5-20%。當使用每個節點具有多個核心的集群節點類型時,改進尤其明顯。

VCF閱讀器忽略表索引文件

在以前的版本中,VCF讀取器在讀取VCF文件的目錄時可能會失敗,如果該目錄包含tabix索引文件。閱讀器將嚐試將tabix文件解釋為VCF文件並報告錯誤。現在,讀取器隻使用索引文件來確定要讀取哪些數據文件。

刪除splitToBiallelic選項從VCF閱讀器

已刪除此選項,改為split_multiallelics變壓器.變壓器比VCF閱讀器更快,更準確。

以下部分列出了Databricks Runtime 7.0 for Genomics中包含的與Databricks Runtime 7.0中包含的不同的庫。

升級庫

  • ADAM: 0.30.0到0.32.0

刪除庫

Hail不包含在Databricks Runtime 7.0 for Genomics中,因為沒有基於Apache Spark 3.0的版本。

包裝庫

圖書館

版本

亞當

0.32.0

GATK

4.1.4.1

Hadoop-bam

7.9.2

samtools

1.9

VEP

96