RNASeq管道

重要的

這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。

磚基因組學的運行時已被棄用。開源的等價物,看到回購genomics-pipelines發光。生物信息學庫是運行時的一部分被釋放集裝箱碼頭工人,可從ProjectGlow Dockerhub頁麵。

關於磚運行時棄用策略的更多信息和時間表,看看磚運行時版本和支持計劃的支持

請注意

以下庫版本打包在磚7.0運行時的基因組學。磚庫包括在低版本的運行時對基因組學、看發布說明

磚RNASeq管道句柄短的讀取校準和量化使用明星v2.6.1a和亞當v0.32.0。

設置

管道運行作為一個磚的工作。你可以設置一個集群政策保存配置:

{“num_workers”:{“類型”:“無限”,“defaultValue”:13},“node_type_id”:{“類型”:“無限”,“defaultValue”:“c5.9xlarge”},“spark_env_vars.refGenomeId”:{“類型”:“無限”,“defaultValue”:“grch38_star”},“spark_version”:{“類型”:“正則表達式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”},“aws_attributes.ebs_volume_count”:{“類型”:“無限”,“defaultValue”:3},“aws_attributes.ebs_volume_size”:{“類型”:“無限”,“defaultValue”:200年}}
  • 任務應該RNASeq筆記本提供這一頁的底部。

  • 最佳性能,使用優化計算實例與至少60 gb的內存。我們建議c5.9xlarge

  • 為了降低成本,使用所有現場工人的現貨跌回隨需應變選項選中。

參考基因組

您必須配置參考基因組使用環境變量。使用GRCh37,設置環境變量:

refGenomeId=grch37_star

使用GRCh38相反,設置環境變量:

refGenomeId=grch38_star

參數

管道接受一個參數,控製其行為的數量。最重要和常見的改變參數記錄;其餘的可以找到RNASeq筆記本。導入筆記本之後,它作為一個工作任務,您可以設置這些參數所有運行每次運行

參數

默認的

描述

清單

n /一個

描述輸入清單。

輸出

n /一個

管道輸出應該寫的路徑。

replayMode

跳過

之一:

  • 跳過:如果輸出階段跳過已經存在。

  • 覆蓋:現有的輸出被刪除。

perSampleTimeout

12小時

一個超時每樣例應用。達到這個超時後,管道繼續到下一個樣品。該參數的值必須包括一個超時單元:“年代”秒,“m”分鍾,或“h”數小時。例如,60米的導致超時60分鍾。

預排

管道包括兩個步驟:

  1. 對齊:每個短讀映射到參考基因組使用星對準器。

  2. 量化:數數有多少讀取對應於每個引用記錄。

額外的使用信息和故障排除

RNASeq管道的操作方麵非常類似於DNASeq管道。關於清單格式的更多信息,輸出結構,編程使用,和常見的問題,看看DNASeq管道