RNASEQ管道
筆記
棄用了基因組學的數據鏈球運行時。Databricks不再為基因組發行版構建新的Databricks運行時,並將在2022年9月24日刪除基因組學的Databricks運行時的支持,當時基因組學7.3 LTS支持的Databricks運行時間結束。當時,當您創建群集時,基因組學的數據鏈芯運行時將不再可供選擇。有關Databricks運行時折舊政策和時間表的更多信息,請參見支持的數據鍵運行時發布和支持時間表。運行時間一部分的生物信息學庫已作為Docker容器發布,您可以在ProjectGlow Dockerhub頁。
筆記
以下庫版本包裝在Databricks Runtime 7.0的基因組學中。有關基因組學數據鏈鍵運行時的庫中包含的庫,請參見發行說明。
Databricks RNASEQ管道處理簡短的閱讀對齊和量化,並使用星星v2.6.1a和亞當v0.32.0。
設置
該管道作為數據鏈摘要運行。您可以設置一個集群策略保存配置:
{“ num_workers”:{“類型”:“無限”,,,,“默認值”:13},,“ node_type_id”:{“類型”:“無限”,,,,“默認值”:“ C5.9xlarge”},,“ spark_env_vars.refgenomeid”:{“類型”:“無限”,,,,“默認值”:“ grch38_star”},,“ spark_version”:{“類型”:“正則”,,,,“圖案”:“。* - hls。*”,,,,“默認值”:“ 7.4.x-hls-scala2.12”},,“ aws_attributes.ebs_volume_count”:{“類型”:“無限”,,,,“默認值”:3},,“ aws_attributes.ebs_volume_size”:{“類型”:“無限”,,,,“默認值”:200}}
任務應是本頁底部提供的RNASEQ筆記本電腦。
為了獲得最佳性能,請使用至少60GB內存的計算優化實例。我們推薦C5.9xlarge。
為了降低成本,請使用所有現場工人點回到按需選擇選項。
參考基因組
您必須使用環境變量。要使用grch37,請設置環境變量:
Refgenomeid=grch37_star
要使用GRCH38,請設置環境變量:
Refgenomeid=grch38_star
參數
管道接受許多控製其行為的參數。此處記錄了最重要和通常更改的參數。其餘的可以在RNASEQ筆記本電腦中找到。導入筆記本並將其設置為作業任務後,您可以為所有運行或者每次。
範圍 |
默認 |
描述 |
---|---|---|
顯現 |
N/A。 |
清單描述輸入。 |
輸出 |
N/A。 |
應寫入管道輸出的路徑。 |
ReplayMode |
跳過 |
之一:
|
persampletimeout |
12H |
每個樣品應用超時。到達此超時後,管道將繼續進入下一個樣本。此參數的值必須包括一個超時單元:“ s”幾秒鍾,“ M”幾分鍾或“ H”數小時。例如,“ 60m”會導致60分鍾的超時。 |
其他用法信息和故障排除
RNASEQ管道的操作方麵與DNASEQ管道非常相似。有關清單格式,輸出結構,程序化使用和常見問題的更多信息,請參見DNASEQ管道。