冰雹

冰雹圖書館是一個建立在Apache火花分析大型基因組數據集。

重要的

當你使用冰雹0.2.65以上,使用Apache火花(磚運行時的8 3.1版本。9. x或者x)
在磚安裝冰雹運行時,而不是磚運行時的基因(棄用)
冰雹是不支持的憑據透傳(遺留)
冰雹是不支持的發光,除非出口從冰雹發光

創建一個集群

安裝通過碼頭工人和冰雹磚容器服務。

容器設置一個冰雹環境,看到ProjectGlow Dockerhub頁麵。使用projectglow / databricks-hail: < hail-version >,用一個可用的替代標記冰雹的版本。

創建一個工作集群與冰雹
1. 設置的磚CLI。
2. 創建一個集群使用冰雹集裝箱碼頭工人設置標簽所需的< hail-version >。
3. 下麵給出了一個示例的工作定義,請編輯notebook_path磚運行時< databricks-runtime-version >和< hail-version >。
```
磚工作創建——json文件hail-create-job.json
```
hail-create-job.json:

             {“名稱”:“hail-job”,“notebook_task”:{“notebook_path”:“/用戶/ < user@organization.com > /冰雹/ docs / hail-tutorial”},“new_cluster”:{“spark_version”:“< databricks-runtime-version > .x-scala2.12”,“aws_attributes”:{“可用性”:“現貨”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“num_workers”:32,“docker_image”:{“url”:“projectglow / databricks-hail: < hail-version >”}}}
            

在一個筆記本使用冰雹

在大多數情況下,冰雹在磚相同冰雹文檔工作。然而,有一些修改,對於磚環境是必要的。

初始化冰雹

當初始化冰雹,通過預先創建的SparkContext和馬克冪等的初始化。此設置允許多個磚筆記本使用相同的冰雹的上下文。

請注意

啟用skip_logging_configuration保存對滾動司機log4j日誌輸出。這個設置隻在冰雹0.2.39以上支持。

              進口冰雹作為霍奇金淋巴瘤霍奇金淋巴瘤。初始化(sc,冪等=真正的,安靜的=真正的,skip_logging_configuration=真正的)
             

顯示散景圖

冰雹使用散景圖書館創建情節。的顯示內置函數散景在磚不工作。顯示冰雹所產生的散景圖,您可以運行一個命令:

              從bokeh.embed進口組件,file_html從bokeh.resources進口CDN情節=霍奇金淋巴瘤。情節。柱狀圖(太。DP,範圍=(0,30.),垃圾箱=30.,標題=DP直方圖的,傳說=“迪拜”)html=file_html(情節,CDN,“圖”)displayHTML(html)
             

看到散景為更多的信息。