冰雹

冰雹是在Apache Spark上構建的一個庫，用於分析大型基因組數據集。

重要的

當您使用Hail 0.2.65及以上版本時，請使用Apache Spark 3.1版本(Databricks Runtime 8。9. x或者x)
在Databricks運行時上安裝Hail，而不是在Genomics的Databricks運行時上安裝Hail(已棄用)
冰雹不支持憑據透傳
冰雹不支持發光，從Hail導出到Glow時除外

創建一個集群

通過Docker安裝冰雹磚容器服務。

有關設置Hail環境的容器，請參閱ProjectGlow Dockerhub頁麵。使用projectglow / databricks-hail: < hail_version >，用可用的Hail版本替換標簽。

使用Hail創建一個作業集群
1. 設置的磚CLI。
2. 創建集群冰雹集裝箱碼頭工人，將標簽設置為所需的< hail_version >。
3. 下麵給出了一個工作定義示例，請編輯notebook_path磚運行時< databricks_runtime_version >和< hail_version >。
```
磚工作創建——json文件hail-create-job.json
```
hail-create-job.json：

             ｛“名稱”：“hail-job”，“notebook_task”：｛“notebook_path”：“/用戶/ < user@organization.com > /冰雹/ docs / hail-tutorial”}，“new_cluster”：｛“spark_version”：“< databricks_runtime_version > .x-scala2.12”，“aws_attributes”：｛“可用性”：“現貨”，“first_on_demand”：1}，“node_type_id”：“r5d.4xlarge”，“num_workers”：32，“docker_image”：｛“url”：“projectglow / databricks-hail: < hail_version >”｝｝｝
            

在筆記本上使用Hail

在大多數情況下，Databricks中的Hail與Hail文檔的工作原理相同。但是，對於Databricks環境有一些必要的修改。

初始化冰雹

初始化Hail時，傳入預先創建的SparkContext把初始化標記為冪等的。該設置允許多個Databricks筆記本使用相同的Hail上下文。

請注意

啟用skip_logging_configuration將日誌保存到滾動驅動程序log4j輸出。此設置僅在Hail 0.2.39及以上版本中支持。

              進口冰雹作為霍奇金淋巴瘤霍奇金淋巴瘤。初始化（sc，冪等＝真正的，安靜的＝真正的，skip_logging_configuration＝真正的）
             

顯示散景圖

冰雹使用散景圖書館創建的情節。的顯示Bokeh內置的函數在Databricks中不工作。要顯示Hail生成的散景圖，可以運行如下命令:

              從bokeh.embed進口組件，file_html從bokeh.resources進口CDN情節＝霍奇金淋巴瘤。情節。柱狀圖（太。DP，範圍＝（0，30.)，垃圾箱＝30.，標題＝DP直方圖的，傳說＝“迪拜”）超文本標記語言＝file_html（情節，CDN，“圖”）displayHTML（超文本標記語言）
             

看到散景為更多的信息。