RNASEQ管道

筆記

棄用了基因組學的數據鏈球運行時。Databricks不再為基因組發行版構建新的Databricks運行時,並將在2022年9月24日刪除基因組學的Databricks運行時的支持,當時基因組學7.3 LTS支持的Databricks運行時間結束。當時,當您創建群集時,基因組學的數據鏈芯運行時將不再可供選擇。有關Databricks運行時折舊政策和時間表的更多信息,請參見支持的數據鍵運行時發布和支持時間表。運行時間一部分的生物信息學庫已作為Docker容器發布,您可以在ProjectGlow Dockerhub頁。

筆記

以下庫版本包裝在Databricks Runtime 7.0的基因組學中。有關基因組學數據鏈鍵運行時的庫中包含的庫,請參見發行說明

Databricks RNASEQ管道處理簡短的閱讀對齊和量化,並使用星星v2.6.1a和亞當v0.32.0。

設置

該管道作為數據鏈摘要運行。您可以設置一個集群策略保存配置:

{“ num_workers”{“類型”“無限”,,,,“默認值”13},,“ node_type_id”{“類型”“無限”,,,,“默認值”“ C5.9xlarge”},,“ spark_env_vars.refgenomeid”{“類型”“無限”,,,,“默認值”“ grch38_star”},,“ spark_version”{“類型”“正則”,,,,“圖案”“。* -  hls。*”,,,,“默認值”“ 7.4.x-hls-scala2.12”},,“ aws_attributes.ebs_volume_count”{“類型”“無限”,,,,“默認值”3},,“ aws_attributes.ebs_volume_size”{“類型”“無限”,,,,“默認值”200}}
  • 任務應是本頁底部提供的RNASEQ筆記本電腦。

  • 為了獲得最佳性能,請使用至少60GB內存的計算優化實例。我們推薦C5.9xlarge

  • 為了降低成本,請使用所有現場工人點回到按需選擇選項。

參考基因組

您必須使用環境變量。要使用grch37,請設置環境變量:

Refgenomeid=grch37_star

要使用GRCH38,請設置環境變量:

Refgenomeid=grch38_star

參數

管道接受許多控製其行為的參數。此處記錄了最重要和通常更改的參數。其餘的可以在RNASEQ筆記本電腦中找到。導入筆記本並將其設置為作業任務後,您可以為所有運行或者每次

範圍

默認

描述

顯現

N/A。

清單描述輸入。

輸出

N/A。

應寫入管道輸出的路徑。

ReplayMode

跳過

之一:

  • 跳過:如果已經存在輸出,則跳過階段。

  • 覆蓋:現有輸出已刪除。

persampletimeout

12H

每個樣品應用超時。到達此超時後,管道將繼續進入下一個樣本。此參數的值必須包括一個超時單元:“ s”幾秒鍾,“ M”幾分鍾或“ H”數小時。例如,“ 60m”會導致60分鍾的超時。

演練

管道由兩個步驟組成:

  1. 對齊:使用星對齊器映射每個簡短讀取為參考基因組。

  2. 量化:計數多少讀取對應於每個參考轉錄本。

其他用法信息和故障排除

RNASEQ管道的操作方麵與DNASEQ管道非常相似。有關清單格式,輸出結構,程序化使用和常見問題的更多信息,請參見DNASEQ管道

RNASEQ管道筆記本

在新標簽中打開筆記本