腫瘤/正常管道

重要的

這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。

磚基因組學的運行時已被棄用。開源的等價物,看到回購genomics-pipelines和發光。生物信息學庫是運行時的一部分被釋放集裝箱碼頭工人,可從ProjectGlow Dockerhub頁麵。

關於磚運行時棄用策略的更多信息和時間表,看看所有支持的磚運行時版本。

磚腫瘤/正常管道GATK最佳實踐簡稱兼容管道讀取校準和體細胞變異使用MuTect2變體調用者。

預排

管道由以下步驟組成:

正常使用BWA-MEM樣本對齊。
使用BWA-MEM腫瘤樣本對齊。
變體與MuTect2調用。

設置

管道運行作為一個磚的工作。你可以設置一個集群政策保存配置:

參考基因組

你必須使用一個配置參考基因組環境變量。使用GRCh37,設置環境變量:

refGenomeId=grch37

使用GRCh38,改變grch37來grch38。

使用一個自定義的參考基因組,參見自定義參考基因組。

參數

管道接受參數,控製其行為。最重要和常見的改變參數記錄在這裏。查看所有可用的參數及其使用信息,運行第一個單元格的管道筆記本。定期添加新的參數。導入筆記本之後,它作為一個工作任務,您可以設置這些參數所有運行或每次運行。

參數	默認的	描述
清單	n /一個	描述輸入清單。
輸出	n /一個	管道輸出應該寫的路徑。
replayMode	跳過	如果`跳過`,如果已經存在輸出階段將被忽略。如果`覆蓋`,現有的輸出將被刪除。
exportVCF	假	如果這是真的,管道將結果寫入一個VCF文件以及三角洲。
perSampleTimeout	12小時	一個超時每樣例應用。達到這個超時後,管道繼續到下一個樣品。該參數的值必須包括一個超時單元:“年代”秒,“m”分鍾,或“h”數小時。例如,60米的導致超時60分鍾。

提示

優化運行時,設置spark.sql.shuffle.partitions火花配置三倍數量的集群的核心。

清單格式

清單是一個CSV文件或blob描述在哪裏找到輸入FASTQ或BAM文件。例如:

             pair_id,file_path,sample_id,標簽,paired_end,read_group_idHG001,*_R1_*。正常的。fastq。bgz,HG001_normal,正常的,1,read_group_normalHG001,*_R2_*。正常的。fastq。bgz,HG001_normal,正常的,2,read_group_normalHG001,*_R1_*。腫瘤。fastq。bgz,HG001_tumor,1,腫瘤,read_group_tumorHG001,*_R2_*。腫瘤。fastq。bgz,HG001_tumor,2,腫瘤,read_group_tumor
            

如果你的輸入包括對齊BAM文件,你應該省略了paired_end字段:

             pair_id,file_path,sample_id,標簽,paired_end,read_group_idHG001,*。正常的。bam,HG001_normal,正常的,,read_group_tumorHG001,*。腫瘤。bam,HG001_tumor,腫瘤,,read_group_normal
            

腫瘤和正常樣本對於一個給定的個人分組的pair_id字段。腫瘤和正常樣本的名字讀集團必須在兩個不同的名字。

提示

如果提供的清單是一個文件,file_path在每一行可能是一個絕對路徑或相對路徑清單文件。如果提供的清單是一個blob,file_path字段必須是一個絕對路徑。可以包含著(*)許多文件相匹配。

額外的使用信息和故障排除

腫瘤/正常管道分享了很多操作細節與其他磚管道。等更詳細的使用信息,輸出格式結構,提示為運行程序,步驟設置自定義參考基因組,和常見的問題,看看DNASeq管道。

請注意

管道被命名為從TNSeq MutSeq磚運行時的7.3 LTS基因組學及以上。