聯合基因分型管道
重要的
這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。
磚基因組學的運行時已被棄用。開源的等價物,看到回購genomics-pipelines和發光。生物信息學庫是運行時的一部分被釋放集裝箱碼頭工人,可從ProjectGlow Dockerhub頁麵。
關於磚運行時棄用策略的更多信息和時間表,看看磚運行時版本和支持計劃的支持。
是一個磚聯合基因分型管道GATK最佳實踐兼容的管道型聯合使用GenotypeGVCFs。
預排
管道通常包括以下步驟:
攝取變異成三角洲湖。
聯合呼籲GenotypeGVCFs的隊列。
在攝取變體,single-sample gVCFs批量處理和行存儲在三角洲湖提供容錯、快速查詢和增量聯合基因分型。聯合基因分型的一步,gVCF行從三角洲湖攝取,分為垃圾箱,並分發到分區。對於每一個變體網站,有關gVCF每個樣本識別和用於regenotyping行。
設置
管道運行作為一個磚的工作。最有可能的磚的解決方案架構師將與你設置的初始工作。必要的細節是:
{“autoscale.min_workers”:{“類型”:“無限”,“defaultValue”:1},“autoscale.max_workers”:{“類型”:“無限”,“defaultValue”:25},“enable_elastic_disk”:{“類型”:“固定”,“價值”:真正的},“node_type_id”:{“類型”:“無限”,“defaultValue”:“i3.8xlarge”},“spark_env_vars.refGenomeId”:{“類型”:“無限”,“defaultValue”:“grch38”},“spark_version”:{“類型”:“正則表達式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”}}
基因組學的集群配置應該使用磚運行時。
這個任務應該聯合基因分型管道筆記本發現這一頁的底部。
為獲得最佳性能,使用storage-optimized實例。我們建議i3.8xlarge。
為了降低成本,使用所有現場工人的現貨跌回隨需應變選項選中。
降低成本,使自動定量1工人的最低和最高10 - 50取決於延遲需求。
啟用自動定量本地存儲,確保集群不耗盡磁盤空間
參考基因組
您必須配置參考基因組使用環境變量。使用GRCh37,設置環境變量:
refGenomeId=grch37
使用GRCh38,改變grch37
來grch38
。
使用一個自定義的參考基因組,參見自定義參考基因組。
參數
管道接受參數,控製其行為。最重要和常見的改變參數記錄在這裏。查看所有可用的參數及其使用信息,運行第一個單元格的管道筆記本。定期添加新的參數。導入筆記本之後,它作為一個工作任務,您可以設置這些參數所有運行或每次運行。
參數 |
默認的 |
描述 |
---|---|---|
清單 |
n /一個 |
的清單描述輸入。 |
輸出 |
n /一個 |
管道的路徑輸出是寫的。 |
replayMode |
跳過 |
之一:
|
exportVCF |
假 |
如果這是真的,管道導致VCF以及三角洲湖寫道。 |
targetedRegions |
n /一個 |
路徑文件包含地區的電話。如果省略,調用所有地區。 |
gvcfDeltaOutput |
n /一個 |
如果指定,gVCFs攝取δ型表之前。你應該指定這個參數隻有在你希望聯合調用相同的gVCFs很多次。 |
performValidation |
假 |
如果 |
validationStringency |
嚴格的 |
如何處理畸形的記錄,在裝載和驗證。
|
提示
執行聯合調用從現有的差值表,集gvcfDeltaOutput
表路徑和replayMode
來跳過
。你也可以提供清單
,這將被用來定義VCF模式和樣本;否則這將是推斷從三角洲表。我們忽略了targetedRegions
和performValidation
在此設置參數。
輸出
regenotyped變體都寫入三角洲表內所提供的輸出目錄。此外,如果你配置了管道出口vcf,他們會出現在輸出目錄。
輸出| - - - - - -基因型| - - - - - -δ文件| - - - - - -基因型。vcf| - - - - - -VCF文件
清單格式
清單是一個文件或blob描述在哪裏找到輸入single-sample GVCF文件,每個文件路徑在一個新行。例如:
HG00096.g.vcf。bgz HG00097.g.vcf.bgz
提示
如果提供的清單是一個文件,每一行可能是一個絕對路徑或相對路徑清單文件。如果提供的清單是一個blob,行字段必須是絕對路徑。可以包含著(*)
許多文件相匹配。
故障排除
工作失敗的ArrayIndexOutOfBoundsException
這個錯誤通常表明一個輸入記錄有錯誤的基因型的概率。嚐試設置performValidation
選項真正的
和validationStringency
選項寬容
或沉默
。
額外的使用信息
聯合基因分型管道分享了很多操作細節與其他磚管道。等更詳細的使用信息,輸出格式結構,提示通過編程的方式運行,和步驟來設置自定義參考基因組,明白了DNASeq管道。