發光

發光是一個開源項目中創建的磚和Regeneron遺傳學中心之間的協作。在發光特性的更多信息,請參閱發光的文檔

發光的筆記本的位置

建立一個發光的環境

上安裝發光磚集群通過碼頭工人磚容器服務

你可以找到在容器ProjectGlow Dockerhub頁麵。這些設置環境與發光和其他在磚運行時庫,基因組學(棄用)。使用projectglow / databricks-glow: < databricks-runtime-version >,用一個可用的替代標記磚運行時版本。

或安裝這兩種集群庫:

  • Maven:io.projectglow: glow-spark3_2.12: <版本>

  • PyPI:glow.py = = <版本>

重要的

  • 如果你安裝發光作為一個獨立的PyPi包,安裝它集群圖書館,而不是notebook-scoped圖書館使用%皮普神奇的命令。

  • 確保Maven坐標和PyPI包都包括在集群上,每個匹配的版本。

  • 安裝最新版本的發光磚上運行時,沒有磚基因(棄用),運行時的發光v0.6默認安裝。

  • 不要安裝冰雹集群上發光,除非從一個中提取基因型冰雹矩陣表

開始發光

磚建議您運行測試筆記本電腦測試數據提供的筆記本電腦之前,真正的數據。這些筆記本測試夜間發光碼頭工人容器的最新版本。

重要的

  • 檢查點後三角洲湖攝取或轉換的基因型數據。

  • 如果輝光作為一個獨立的PyPi包安裝,請安裝作為一個集群圖書館,而不是作為一個notebook-scoped圖書館使用%皮普神奇的命令。請包括Maven坐標。

  • 不要安裝冰雹集群上發光,除非從冰雹矩陣表中提取數據。

設置自動工作

在您運行示例的筆記本,然後運用真實數據的代碼,你準備管道通過使用自動化的步驟工作

重要的

  • 從小事做起。個體變異,實驗樣品或染色體。

  • 步驟在您的管道可能需要不同的集群配置,這取決於類型的計算。

提示

  • 使用compute-optimized虛擬機讀變異來自雲對象存儲的數據。

  • 使用三角洲緩存加速虛擬機數據查詢變體。

  • 對基因關聯研究使用memory-optimized虛擬機。

    • 集群與小型機器有更好的性價比比相比,大型機器。

  • 發光管變壓器運行在支持並行深度學習的工具gpu