發光

發光是一個開源項目中創建的磚和Regeneron遺傳學中心之間的協作。在發光特性的更多信息,請參閱發光的文檔

同步發光筆記本到您的工作空間中

  1. 叉的發光github回購

  2. 克隆你叉磚工作空間使用回購

  3. 在筆記本電腦文檔/ / _static來源

發光的筆記本的位置

建立一個發光的環境

上安裝發光磚集群通過碼頭工人磚容器服務

你可以找到在容器ProjectGlow Dockerhub頁麵。這些設置環境與發光和其他在磚運行時庫,基因組學(棄用)。使用projectglow / databricks-glow: < databricks-runtime-version >,用一個可用的替代標記磚運行時版本。

或安裝這兩種集群庫:

  • Maven:io.projectglow: glow-spark3_2.12: <版本>

  • PyPI:glow.py = = <版本>

重要的

  • 如果你安裝發光作為一個獨立的PyPi包,安裝它集群圖書館,而不是notebook-scoped圖書館使用%皮普神奇的命令。

  • 確保Maven坐標和PyPI包都包括在集群上,每個匹配的版本。

  • 安裝最新版本的發光磚上運行時,沒有磚基因(棄用),運行時的發光v0.6默認安裝。

  • 不要安裝冰雹集群上發光,除非從一個中提取基因型冰雹矩陣表

開始發光

磚建議您運行測試筆記本電腦測試數據提供的筆記本電腦之前,真正的數據。這些筆記本測試夜間發光碼頭工人容器的最新版本。

重要的

  • 檢查點後三角洲湖攝取或轉換的基因型數據。

設置自動工作

在您運行示例的筆記本,然後運用真實數據的代碼,你準備管道通過使用自動化的步驟工作

重要的

  • 從小事做起。個體變異,實驗樣品或染色體。

  • 步驟在您的管道可能需要不同的集群配置,這取決於類型的計算。

提示

  • 使用compute-optimized虛擬機讀變異來自雲對象存儲的數據。

  • 使用三角洲緩存加速虛擬機數據查詢變體。

  • 對基因關聯研究使用memory-optimized虛擬機。

    • 集群與小型機器有更好的性價比比相比,大型機器。

  • 發光管變壓器運行在支持並行深度學習的工具gpu

下麵的示例集群配置運行單個染色體遺傳關聯研究。編輯notebook_path< databricks-runtime-version >根據需要。

工作創建——json文件glow-create-job.json

glow-create-job.json:

{“名稱”:“glow_gwas”,“notebook_task”:{“notebook_path”:“/用戶/ < user@organization.com > /發光/ docs /源/ _static /筆記本電腦/大專/ gwas-quantitative”,“base_parameters”:{“allele_freq_cutoff”:0.01}},“new_cluster”:{“spark_version”:“< databricks-runtime-version > .x-scala2.12”,“aws_attributes”:{“可用性”:“現貨”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“driver_node_type_id”:“r5d.4xlarge”,“num_workers”:32,“spark_conf”:{“spark.sql.execution.arrow.maxRecordsPerBatch”:One hundred.},“docker_image”:{“url”:“projectglow / databricks-glow: < databricks-runtime-version >”}}}