冰雹
冰雹是在Apache Spark上構建的一個庫,用於分析大型基因組數據集。
重要的
創建一個集群
通過Docker安裝冰雹磚容器服務。
有關設置Hail環境的容器,請參閱ProjectGlow Dockerhub頁麵。使用projectglow / databricks-hail: < hail_version >
,用可用的Hail版本替換標簽。
使用Hail創建一個作業集群
設置的磚CLI。
創建集群冰雹集裝箱碼頭工人,將標簽設置為所需的
< hail_version >
。下麵給出了一個工作定義示例,請編輯notebook_path磚運行時
< databricks_runtime_version >
和< hail_version >
。
磚工作創建——json文件hail-create-job.json
hail-create-job.json
:
{“名稱”:“hail-job”,“notebook_task”:{“notebook_path”:“/用戶/ < user@organization.com > /冰雹/ docs / hail-tutorial”},“new_cluster”:{“spark_version”:“< databricks_runtime_version > .x-scala2.12”,“aws_attributes”:{“可用性”:“現貨”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“num_workers”:32,“docker_image”:{“url”:“projectglow / databricks-hail: < hail_version >”}}}
在筆記本上使用Hail
在大多數情況下,Databricks中的Hail與Hail文檔的工作原理相同。但是,對於Databricks環境有一些必要的修改。