發光
發光是一個開源項目中創建的磚和Regeneron遺傳學中心之間的協作。在發光特性的更多信息,請參閱發光的文檔。
同步發光筆記本到您的工作空間中
叉的發光github回購。
克隆你叉磚工作空間使用回購。
在筆記本電腦
文檔/ / _static來源
。
建立一個發光的環境
上安裝發光磚集群通過碼頭工人磚容器服務。
你可以找到在容器ProjectGlow Dockerhub頁麵。這些設置環境與發光和其他在磚運行時庫,基因組學(棄用)。使用projectglow / databricks-glow: < databricks-runtime-version >
,用一個可用的替代標記磚運行時版本。
或安裝這兩種集群庫:
Maven:
io.projectglow: glow-spark3_2.12: <版本>
PyPI:
glow.py = = <版本>
重要的
如果你安裝發光作為一個獨立的PyPi包,安裝它集群圖書館,而不是notebook-scoped圖書館使用
%皮普
神奇的命令。確保Maven坐標和PyPI包都包括在集群上,每個匹配的版本。
安裝最新版本的發光磚上運行時,沒有磚基因(棄用),運行時的發光v0.6默認安裝。
設置自動工作
在您運行示例的筆記本,然後運用真實數據的代碼,你準備管道通過使用自動化的步驟工作。
重要的
從小事做起。個體變異,實驗樣品或染色體。
步驟在您的管道可能需要不同的集群配置,這取決於類型的計算。
提示
使用compute-optimized虛擬機讀變異來自雲對象存儲的數據。
使用三角洲緩存加速虛擬機數據查詢變體。
對基因關聯研究使用memory-optimized虛擬機。
集群與小型機器有更好的性價比比相比,大型機器。
發光管變壓器運行在支持並行深度學習的工具gpu。
下麵的示例集群配置運行單個染色體遺傳關聯研究。編輯notebook_path和< databricks-runtime-version >
根據需要。
磚工作創建——json文件glow-create-job.json
glow-create-job.json
:
{“名稱”:“glow_gwas”,“notebook_task”:{“notebook_path”:“/用戶/ < user@organization.com > /發光/ docs /源/ _static /筆記本電腦/大專/ gwas-quantitative”,“base_parameters”:{“allele_freq_cutoff”:0.01}},“new_cluster”:{“spark_version”:“< databricks-runtime-version > .x-scala2.12”,“aws_attributes”:{“可用性”:“現貨”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“driver_node_type_id”:“r5d.4xlarge”,“num_workers”:32,“spark_conf”:{“spark.sql.execution.arrow.maxRecordsPerBatch”:One hundred.},“docker_image”:{“url”:“projectglow / databricks-glow: < databricks-runtime-version >”}}}