輝光
輝光是在Databricks和Regeneron Genetics Center之間合作創建的開源項目。有關Glow中功能的信息,請參閱發光文檔。
將發光筆記本同步到工作空間
使用您的叉子克隆到數據映工作空間存儲庫。
筆記本在下麵
文檔/源/_static
。
建立一個發光環境
通過Docker將Glow安裝在Databricks群集上Databricks容器服務。
您可以在ProjectGlow Dockerhub頁。這些設置環境帶有發光和其他庫中的基因組運行時(已棄用)。利用projectglow/databricks-glow:
,用可用的數據快速運行時版本代替標簽。
或安裝這兩個集群庫:
馬文:
io.projectglow:Glow-Spark3_2.12:<版本>
PYPI:
glow.py == <版本>
開始發光
Databricks建議您在轉移到真實數據之前在筆記本提供的測試數據上運行測試筆記本。這些筆記本每晚都會使用最新版本的Glow Docker容器進行測試。
重要的
攝入或轉化為基因型數據後,檢查點到達美湖。
設置自動化作業
運行示例筆記本後,然後將代碼應用於真實數據,您就可以使用管道中的步驟自動化工作。
重要的
開始小。實驗單個變體,樣品或染色體。
管道中的步驟可能需要不同的集群配置,具體取決於執行的計算類型。
小費
使用計算優化的虛擬機從雲對象存儲中讀取變體數據。
使用Delta緩存加速的虛擬機查詢變體數據。
使用內存優化的虛擬機進行遺傳關聯研究。
與大型機器相比,帶有小型機器的群集具有更好的價格性比率。
Glow Pipe Transformer支持在上麵運行的深度學習工具的並行化GPU。
以下示例集群構型在單個染色體上進行了遺傳關聯研究。編輯Notebook_path和
如所須。
數據映工作創建-json-file Glow-create-job.json
Glow-Create-Job.json
:
{“姓名”:“ glow_gwas”,,,,“ Notebook_task”:{“ Notebook_path”:“ /users/< user@organization.com>/glow/docs/source/_static/notebooks/tertiary/gwas-quantative'',,,,“ base_parameters”:{“ allele_freq_cutoff”:0.01}},,“ new_cluster”:{“ spark_version”:“ .x-scala2.12” ,,,,“ aws_attributes”:{“可用性”:“點”,,,,“ first_on_demand”:1},,“ node_type_id”:“ R5D.4Xlarge”,,,,“ driver_node_type_id”:“ R5D.4Xlarge”,,,,“ num_workers”:32,,,,“ spark_conf”:{“ spark.sql.execution.arrow.maxrecordsperbatch”:100},,“ docker_image”:{“ url”:“ projectglow/databricks-glow:” }}}