聯合基因分型管道

重要的

這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。

磚基因組學的運行時已被棄用。開源的等價物,看到回購genomics-pipelines發光。生物信息學庫是運行時的一部分被釋放集裝箱碼頭工人,可從ProjectGlow Dockerhub頁麵。

關於磚運行時棄用策略的更多信息和時間表,看看磚運行時版本和支持計劃的支持

是一個磚聯合基因分型管道GATK最佳實踐兼容的管道型聯合使用GenotypeGVCFs

預排

管道通常包括以下步驟:

  1. 攝取變異成三角洲湖。

  2. 聯合呼籲GenotypeGVCFs的隊列。

在攝取變體,single-sample gVCFs批量處理和行存儲在三角洲湖提供容錯、快速查詢和增量聯合基因分型。聯合基因分型的一步,gVCF行從三角洲湖攝取,分為垃圾箱,並分發到分區。對於每一個變體網站,有關gVCF每個樣本識別和用於regenotyping行。

設置

管道運行作為一個磚的工作。最有可能的磚的解決方案架構師將與你設置的初始工作。必要的細節是:

{“autoscale.min_workers”:{“類型”:“無限”,“defaultValue”:1},“autoscale.max_workers”:{“類型”:“無限”,“defaultValue”:25},“enable_elastic_disk”:{“類型”:“固定”,“價值”:真正的},“node_type_id”:{“類型”:“無限”,“defaultValue”:“i3.8xlarge”},“spark_env_vars.refGenomeId”:{“類型”:“無限”,“defaultValue”:“grch38”},“spark_version”:{“類型”:“正則表達式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”}}
  • 基因組學的集群配置應該使用磚運行時。

  • 這個任務應該聯合基因分型管道筆記本發現這一頁的底部。

  • 為獲得最佳性能,使用storage-optimized實例。我們建議i3.8xlarge

  • 為了降低成本,使用所有現場工人的現貨跌回隨需應變選項選中。

  • 降低成本,使自動定量1工人的最低和最高10 - 50取決於延遲需求。

  • 啟用自動定量本地存儲,確保集群不耗盡磁盤空間

參考基因組

您必須配置參考基因組使用環境變量。使用GRCh37,設置環境變量:

refGenomeId=grch37

使用GRCh38,改變grch37grch38

使用一個自定義的參考基因組,參見自定義參考基因組

參數

管道接受參數,控製其行為。最重要和常見的改變參數記錄在這裏。查看所有可用的參數及其使用信息,運行第一個單元格的管道筆記本。定期添加新的參數。導入筆記本之後,它作為一個工作任務,您可以設置這些參數所有運行每次運行

參數

默認的

描述

清單

n /一個

清單描述輸入。

輸出

n /一個

管道的路徑輸出是寫的。

replayMode

跳過

之一:

  • 跳過:如果輸出階段跳過已經存在。

  • 覆蓋:現有的輸出被刪除。

exportVCF

如果這是真的,管道導致VCF以及三角洲湖寫道。

targetedRegions

n /一個

路徑文件包含地區的電話。如果省略,調用所有地區。

gvcfDeltaOutput

n /一個

如果指定,gVCFs攝取δ型表之前。你應該指定這個參數隻有在你希望聯合調用相同的gVCFs很多次。

performValidation

如果真正的,係統驗證聯合基因分型的每條記錄包含必要的信息。特別是,它檢查正確數量的基因型的概率。

validationStringency

嚴格的

如何處理畸形的記錄,在裝載和驗證。

  • 嚴格的:失敗的工作

  • 寬容:日誌記錄警告和下降

  • 沉默沒有警告:刪除記錄

提示

執行聯合調用從現有的差值表,集gvcfDeltaOutput表路徑和replayMode跳過。你也可以提供清單,這將被用來定義VCF模式和樣本;否則這將是推斷從三角洲表。我們忽略了targetedRegionsperformValidation在此設置參數。

輸出

regenotyped變體都寫入三角洲表內所提供的輸出目錄。此外,如果你配置了管道出口vcf,他們會出現在輸出目錄。

輸出| - - - - - -基因型| - - - - - -δ文件| - - - - - -基因型vcf| - - - - - -VCF文件

清單格式

清單是一個文件或blob描述在哪裏找到輸入single-sample GVCF文件,每個文件路徑在一個新行。例如:

HG00096.g.vcf。bgz HG00097.g.vcf.bgz

提示

如果提供的清單是一個文件,每一行可能是一個絕對路徑或相對路徑清單文件。如果提供的清單是一個blob,行字段必須是絕對路徑。可以包含著(*)許多文件相匹配。

故障排除

工作失敗的ArrayIndexOutOfBoundsException

這個錯誤通常表明一個輸入記錄有錯誤的基因型的概率。嚐試設置performValidation選項真正的validationStringency選項寬容沉默

額外的使用信息

聯合基因分型管道分享了很多操作細節與其他磚管道。等更詳細的使用信息,輸出格式結構,提示通過編程的方式運行,和步驟來設置自定義參考基因組,明白了DNASeq管道