冰雹

冰雹圖書館是一個建立在Apache火花分析大型基因組數據集。

重要的

  • 當你使用冰雹0.2.65以上,使用Apache火花(磚運行時的8 3.1版本。9. x或者x)

  • 在磚安裝冰雹運行時,而不是磚運行時的基因(棄用)

  • 冰雹是不支持的憑據透傳(遺留)

  • 冰雹是不支持的發光,除非出口從冰雹發光

創建一個集群

安裝通過碼頭工人和冰雹磚容器服務

容器設置一個冰雹環境,看到ProjectGlow Dockerhub頁麵。使用projectglow / databricks-hail: < hail-version >,用一個可用的替代標記冰雹的版本。

  1. 創建一個工作集群與冰雹

    1. 設置的磚CLI

    2. 創建一個集群使用冰雹集裝箱碼頭工人設置標簽所需的< hail-version >

    3. 下麵給出了一個示例的工作定義,請編輯notebook_path磚運行時< databricks-runtime-version >< hail-version >

    工作創建——json文件hail-create-job.json

    hail-create-job.json:

{“名稱”:“hail-job”,“notebook_task”:{“notebook_path”:“/用戶/ < user@organization.com > /冰雹/ docs / hail-tutorial”},“new_cluster”:{“spark_version”:“< databricks-runtime-version > .x-scala2.12”,“aws_attributes”:{“可用性”:“現貨”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“num_workers”:32,“docker_image”:{“url”:“projectglow / databricks-hail: < hail-version >”}}}

在一個筆記本使用冰雹

在大多數情況下,冰雹在磚相同冰雹文檔工作。然而,有一些修改,對於磚環境是必要的。

初始化冰雹

當初始化冰雹,通過預先創建的SparkContext和馬克冪等的初始化。此設置允許多個磚筆記本使用相同的冰雹的上下文。

請注意

啟用skip_logging_configuration保存對滾動司機log4j日誌輸出。這個設置隻在冰雹0.2.39以上支持。

進口冰雹作為霍奇金淋巴瘤霍奇金淋巴瘤初始化(sc,冪等=真正的,安靜的=真正的,skip_logging_configuration=真正的)

顯示散景圖

冰雹使用散景圖書館創建情節。的顯示內置函數散景在磚不工作。顯示冰雹所產生的散景圖,您可以運行一個命令:

bokeh.embed進口組件,file_htmlbokeh.resources進口CDN情節=霍奇金淋巴瘤情節柱狀圖(DP,範圍=(0,30.),垃圾箱=30.,標題=DP直方圖的,傳說=“迪拜”)html=file_html(情節,CDN,“圖”)displayHTML(html)

看到散景為更多的信息。