文献阅读 | 基于ATAC-seq数据的SNV与indels的发现
发布日期:2021-05-14 21:06:32 浏览次数:19 分类:精选文章

本文共 1365 字,大约阅读时间需要 4 分钟。

发现ATAC-seq数据中的单核苷变异及插入引入脱配

近年来,ATAC-seq作为一个高效且成本低廉的遗传多态性发现工具,逐渐成为研究基因多态性的重要手段。然而,尽管其在单细胞分析中的潜力巨大,但对于其在SNV和Indel检测中的表现,目前仍未有系统性的评估。基于这一背景,本研究旨在通过对现有7种变异调用器工具的评估,探索其在批量和单细胞ATAC-seq数据中的检测效果,并基于此开发出一套具有集成优势的新工具VarCA。

方法与工具

本研究的核心工作内容包括以下两部分:

  • 变异调用器工具的表现评估:评估7种变异检测工具(包括GATK、VarScan2、VarDict等)在批量和单细胞ATAC-seq数据中的SNV和Indel检测性能。
  • VarCA工具的开发与验证:整合上述工具的输出结果,开发一套新型变异预测工具VarCA,旨在提高变异检测的整体性能和信任度。
  • 结果

    变异检测工具的表现

    通过对工具在不同数据集上的性能评估,我们发现:

    • SNV检测:GATK、VarScan2、VarDict表现优异,其精度和召回率均达到或超过0.95。
    • Indels检测:GATK、VarScan2、Menta等工具表现较好,精度和召回率在0.8-0.93水平。

    VarCA工具的表现

    VarCA整合了多种变异检测工具的输出结果,分别在批量和单细胞ATAC-seq数据中测试其性能:

    • 批量ATAC-seq
      • SNV:精确率0.99,召回率0.95
      • Indels:精确率0.93,召回率0.80
    • 单细胞ATAC-seq
      • SNV:精确率0.98,召回率0.94
      • Indels:精确率0.82,召回率0.82

    VarCA的整体表现显著优于单一工具,其重新校准的质量评分体系能够有效过滤高信赖度变异。此外,VarCA还可以在单细胞ATAC-seq数据中识别仅存在于部分细胞中的体细胞突变。

    VarCA的局限性

    目前VarCA存在以下不足之处:

  • 目前仅适用于双端测序数据集。
  • 仅支持SNV和Indel类型的变异检测。
  • 操作步骤

    数据处理流程

  • 数据预处理
    • 对批量ATAC-seq数据进行BWA-MEM比对。
    • 对单细胞ATAC-seq数据进行比对和聚类。
  • 读取过滤
    • 使用samtools或pysam过滤低质量和无用reads。
  • 峰值识别
    • 使用MACS2软件识别ATAC-seq峰值区域。
  • 变异检测
    • 应用VarCA整合和分析各变异调用器的输出,识别具有统计学意义的变异。
  • VarCA工具简介

    VarCA是一个集成型变异预测工具,功能包括:

    • 准备子工作流程:根据输入数据自动生成适配的分析配置。
    • 运行多种变异调用器:同时对ATAC-seq数据进行变异预测。
    • 结果整合:将各工具输出结果聚合到一个统一的VCF格式文件中。
    • 分类子工作流程
      • 基于准备好的子工作流程配置文件,预测ATAC-seq峰值区域内的变异。 -输出新的VCF文件 containing the predictions.

    本研究通过系统评估现有变异检测工具的性能,不仅为ATAC-seq数据中遗传变异的发现提供了全新的方法选择,还开发出了一款综合性能优秀的VarCA工具。这一成果为后续AtAC-seq研究提供了更高效的工具支持,同时也为单细胞数据中的亚细胞变异分析开辟了新的可能。

    上一篇:文献阅读 | 基于单细胞RNA测序数据的谱系追踪
    下一篇:typora编辑器运行变慢?

    发表评论

    最新留言

    路过按个爪印,很不错,赞一个!
    [***.219.124.196]2025年04月26日 23时29分54秒