腫瘤/正常管道

重要的

這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。

磚基因組學的運行時已被棄用。開源的等價物,看到回購genomics-pipelines發光。生物信息學庫是運行時的一部分被釋放集裝箱碼頭工人,可從ProjectGlow Dockerhub頁麵。

關於磚運行時棄用策略的更多信息和時間表,看看磚運行時版本和支持計劃的支持

磚腫瘤/正常管道GATK最佳實踐簡稱兼容管道讀取校準和體細胞變異使用MuTect2變體調用者。

預排

管道由以下步驟組成:

  1. 正常使用BWA-MEM樣本對齊。

  2. 使用BWA-MEM腫瘤樣本對齊。

  3. 變體與MuTect2調用。

設置

管道運行作為一個磚的工作。你可以設置一個集群政策保存配置:

{“num_workers”:{“類型”:“無限”,“defaultValue”:13},“node_type_id”:{“類型”:“無限”,“defaultValue”:“c5.9xlarge”},“spark_env_vars.refGenomeId”:{“類型”:“無限”,“defaultValue”:“grch38”},“spark_version”:{“類型”:“正則表達式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”},“aws_attributes.ebs_volume_count”:{“類型”:“無限”,“defaultValue”:3},“aws_attributes.ebs_volume_size”:{“類型”:“無限”,“defaultValue”:200年}}
  • 基因組學的集群配置應該使用磚運行時。

  • 任務應該腫瘤/正常筆記本發現這一頁的底部。

  • 最佳性能,使用優化計算實例與至少60 gb的內存。我們建議c5.9xlarge

  • 如果你跑步基礎質量分數調整,使用通用(m5.4xlarge)實例,而不是因為這個操作需要更多的內存。

  • 為了降低成本,使用所有現場工人的現貨跌回隨需應變選項選中。

  • 附上3 200 gb的SSD EBS卷

參考基因組

你必須使用一個配置參考基因組環境變量。使用GRCh37,設置環境變量:

refGenomeId=grch37

使用GRCh38,改變grch37grch38

使用一個自定義的參考基因組,參見自定義參考基因組

參數

管道接受參數,控製其行為。最重要和常見的改變參數記錄在這裏。查看所有可用的參數及其使用信息,運行第一個單元格的管道筆記本。定期添加新的參數。導入筆記本之後,它作為一個工作任務,您可以設置這些參數所有運行每次運行

參數

默認的

描述

清單

n /一個

描述輸入清單。

輸出

n /一個

管道輸出應該寫的路徑。

replayMode

跳過

  • 如果跳過,如果已經存在輸出階段將被忽略。

  • 如果覆蓋,現有的輸出將被刪除。

exportVCF

如果這是真的,管道將結果寫入一個VCF文件以及三角洲。

perSampleTimeout

12小時

一個超時每樣例應用。達到這個超時後,管道繼續到下一個樣品。該參數的值必須包括一個超時單元:“年代”秒,“m”分鍾,或“h”數小時。例如,60米的導致超時60分鍾。

提示

優化運行時,設置spark.sql.shuffle.partitions火花配置三倍數量的集群的核心。

清單格式

清單是一個CSV文件或blob描述在哪裏找到輸入FASTQ或BAM文件。例如:

pair_id,file_path,sample_id,標簽,paired_end,read_group_idHG001,*_R1_*。正常的fastqbgz,HG001_normal,正常的,1,read_group_normalHG001,*_R2_*。正常的fastqbgz,HG001_normal,正常的,2,read_group_normalHG001,*_R1_*。腫瘤fastqbgz,HG001_tumor,1,腫瘤,read_group_tumorHG001,*_R2_*。腫瘤fastqbgz,HG001_tumor,2,腫瘤,read_group_tumor

如果你的輸入包括對齊BAM文件,你應該省略了paired_end字段:

pair_id,file_path,sample_id,標簽,paired_end,read_group_idHG001,*。正常的bam,HG001_normal,正常的,,read_group_tumorHG001,*。腫瘤bam,HG001_tumor,腫瘤,,read_group_normal

腫瘤和正常樣本對於一個給定的個人分組的pair_id字段。腫瘤和正常樣本的名字讀集團必須在兩個不同的名字。

提示

如果提供的清單是一個文件,file_path在每一行可能是一個絕對路徑或相對路徑清單文件。如果提供的清單是一個blob,file_path字段必須是一個絕對路徑。可以包含著(*)許多文件相匹配。

額外的使用信息和故障排除

腫瘤/正常管道分享了很多操作細節與其他磚管道。等更詳細的使用信息,輸出格式結構,提示為運行程序,步驟設置自定義參考基因組,和常見的問題,看看DNASeq管道

請注意

管道被命名為從TNSeq MutSeq磚運行時的7.3 LTS基因組學及以上。