用於基因組學的Databricks Runtime 6.6(不支持)

Databricks在2020年5月發布了這張圖片。

Databricks Runtime 6.6 for Genomics是一個版本Databricks Runtime 6.6(不支持)優化處理基因組和生物醫學數據。它是Databricks基因組學統一分析平台的組成部分。Beplay体育安卓版本

有關更多信息,包括為Genomics集群創建Databricks Runtime的說明,請參見基因組學導遊.有關開發基因組學應用程序的更多信息,請參見基因組學導遊

新功能

Databricks Runtime 6.6 for Genomics是在Databricks Runtime 6.6的基礎上構建的。有關Databricks Runtime 6.6中新增內容的信息,請參見Databricks Runtime 6.6(不支持)發行說明。

GFF3讀者

的版本發光包含在Databricks Runtime 6.6 for Genomics可以讀取GFF3文件。DataFrame模式是從當前屬性推斷出來的。我們加上了這個功能在開源中。

自定義參考基因組支持

我們現在支持自定義參考基因組DNASeq腫瘤/正常,聯合基因分型管道。

每個樣本管道超時

DNASeqRNASeq,腫瘤/正常管道現在有一個設置每個示例超時的選項。

BAM導出選項

DNASeqRNASeq,腫瘤/正常管道現在有一個導出到BAM的選項。對齊讀取可以導出為單個BAM或分片BAM。

清單斑點

的清單DNASeqRNASeq腫瘤/正常,聯合基因分型現在可以通過blob和路徑提供管道。如果清單是通過blob提供的,那麼所有路徑都必須是絕對路徑。

改進

變量歸一化器靈活性

發光變量規範化器現在接受壓縮的引用序列,例如block-gzip的FASTA文件。我們加上了這個改進在開源中。

管式變壓器允許空分區

發光管道轉換器現在忽略空分區,因此用戶不再需要合並輸入的DataFrame。我們加上了這個改進在開源中。

已打包的庫版本文檔

的BAMs和vcf輸出DNASeqRNASeq腫瘤/正常,聯合基因分型管道現在在其頭文件中記錄相關的庫版本。

重複標記性能

對象的讀對齊階段重複標記DNASeq現在管道速度更快,需要的內存更少。

其他的變化

genotypeGivenAlleles而且emitAllAlleles選項已從聯合基因分型管道。

Databricks Runtime 6.6 for Genomics中包含的以下庫與Databricks Runtime 6.6中包含的庫不同。

升級庫

  • GATK: 4.0.11.0至4.1.4.1

包裝庫

圖書館

版本

亞當

0.30.0

GATK

4.1.4.1

Hadoop-bam

7.9.2

冰雹

0.2.40

samtools

1.9

VEP

96