輝光

輝光是在Databricks和Regeneron Genetics Center之間合作創建的開源項目。有關Glow中功能的信息,請參閱發光文檔

將發光筆記本同步到工作空間

  1. 分叉Glow Github倉庫

  2. 使用您的叉子克隆到數據映工作空間存儲庫

  3. 筆記本在下麵文檔/源/_static

Glow Notebooks位置

建立一個發光環境

通過Docker將Glow安裝在Databricks群集上Databricks容器服務

您可以在ProjectGlow Dockerhub頁。這些設置環境帶有發光和其他庫中的基因組運行時(已棄用)。利用projectglow/databricks-glow:,用可用的數據快速運行時版本代替標簽。

或安裝這兩個集群庫

  • 馬文:io.projectglow:Glow-Spark3_2.12:<版本>

  • PYPI:glow.py == <版本>

重要的

  • 如果您將Glow作為獨立的PYPI軟件包安裝,請將其安裝為集群庫, 代替筆記本庫庫使用%pip魔術命令。

  • 確保群集中都包含兩個Maven坐標和PYPI軟件包,並將每個匹配版本的版本。

  • 在Databricks運行時安裝最新版本的GLOW,而不是基因組學(已棄用)的Databricks運行時,默認情況下安裝了GLOW V0.6。

  • 不要安裝冰雹在帶有發光的集群上,除了從A提取基因型時冰雹矩陣表

開始發光

Databricks建議您在轉移到真實數據之前在筆記本提供的測試數據上運行測試筆記本。這些筆記本每晚都會使用最新版本的Glow Docker容器進行測試。

重要的

  • 攝入或轉化為基因型數據後,檢查點到達美湖。

設置自動化作業

運行示例筆記本後,然後將代碼應用於真實數據,您就可以使用管道中的步驟自動化工作

重要的

  • 開始小。實驗單個變體,樣品或染色體。

  • 管道中的步驟可能需要不同的集群配置,具體取決於執行的計算類型。

小費

  • 使用計算優化的虛擬機從雲對象存儲中讀取變體數據。

  • 使用Delta緩存加速的虛擬機查詢變體數據。

  • 使用內存優化的虛擬機進行遺傳關聯研究。

    • 與大型機器相比,帶有小型機器的群集具有更好的價格性比率。

  • Glow Pipe Transformer支持在上麵運行的深度學習工具的並行化GPU

以下示例集群構型在單個染色體上進行了遺傳關聯研究。編輯Notebook_path如所須。

數據映工作創建-json-file Glow-create-job.json

Glow-Create-Job.json

{“姓名”“ glow_gwas”,,,,“ Notebook_task”{“ Notebook_path”“ /users/< user@organization.com>/glow/docs/source/_static/notebooks/tertiary/gwas-quantative'',,,,“ base_parameters”{“ allele_freq_cutoff”0.01}},,“ new_cluster”{“ spark_version” .x-scala2.12”,,,,“ aws_attributes”{“可用性”“點”,,,,“ first_on_demand”1},,“ node_type_id”“ R5D.4Xlarge”,,,,“ driver_node_type_id”“ R5D.4Xlarge”,,,,“ num_workers”32,,,,“ spark_conf”{“ spark.sql.execution.arrow.maxrecordsperbatch”100},,“ docker_image”{“ url”“ projectglow/databricks-glow:}}}