亞當

亞當是Apache Spark上用於基因組數據處理的庫。它用於實現操作基因組讀取數據(如BAM、SAM和CRAM文件)的管道。

在Databricks中使用ADAM:

  1. 使用這些文件啟動Databricks Runtime集群火花配置

    # Hadoop配置org.apache.spark.serializer.KryoSerializerspark.kryo.registrator org.bdgenomics.adam.serialization.ADAMKryoRegistratorspark.hadoop.hadoopbam.bam。enable-bai-splitter真實
  2. 安裝集群庫

    • Maven:org.bdgenomics.adam: adam-apis-spark3_2.12: <版本>

    • PyPI:bdgenomics.adam