冰雹

冰雹是在Apache Spark上構建的一個庫,用於分析大型基因組數據集。

重要的

  • 當您使用Hail 0.2.65及以上版本時,請使用Apache Spark 3.1版本(Databricks Runtime 8。9. x或者x)

  • 在Databricks運行時上安裝Hail,而不是在Genomics的Databricks運行時上安裝Hail(已棄用)

  • 冰雹不支持憑據透傳

  • 冰雹不支持發光,從Hail導出到Glow時除外

創建一個集群

通過Docker安裝冰雹磚容器服務

有關設置Hail環境的容器,請參閱ProjectGlow Dockerhub頁麵。使用projectglow / databricks-hail: < hail_version >,用可用的Hail版本替換標簽。

  1. 使用Hail創建一個作業集群

    1. 設置的磚CLI

    2. 創建集群冰雹集裝箱碼頭工人,將標簽設置為所需的< hail_version >

    3. 下麵給出了一個工作定義示例,請編輯notebook_path磚運行時< databricks_runtime_version >< hail_version >

    工作創建——json文件hail-create-job.json

    hail-create-job.json

“名稱”“hail-job”“notebook_task”“notebook_path”“/用戶/ < user@organization.com > /冰雹/ docs / hail-tutorial”},“new_cluster”“spark_version”“< databricks_runtime_version > .x-scala2.12”“aws_attributes”“可用性”“現貨”“first_on_demand”1},“node_type_id”“r5d.4xlarge”“num_workers”32“docker_image”“url”“projectglow / databricks-hail: < hail_version >”

在筆記本上使用Hail

在大多數情況下,Databricks中的Hail與Hail文檔的工作原理相同。但是,對於Databricks環境有一些必要的修改。

初始化冰雹

初始化Hail時,傳入預先創建的SparkContext把初始化標記為冪等的。該設置允許多個Databricks筆記本使用相同的Hail上下文。

請注意

啟用skip_logging_configuration將日誌保存到滾動驅動程序log4j輸出。此設置僅在Hail 0.2.39及以上版本中支持。

進口冰雹作為霍奇金淋巴瘤霍奇金淋巴瘤初始化sc冪等真正的安靜的真正的skip_logging_configuration真正的

顯示散景圖

冰雹使用散景圖書館創建的情節。的顯示Bokeh內置的函數在Databricks中不工作。要顯示Hail生成的散景圖,可以運行如下命令:

bokeh.embed進口組件file_htmlbokeh.resources進口CDN情節霍奇金淋巴瘤情節柱狀圖DP範圍030.),垃圾箱30.標題DP直方圖的傳說“迪拜”超文本標記語言file_html情節CDN“圖”displayHTML超文本標記語言

看到散景為更多的信息。