ngs流程简介-凯发k8国际娱乐官网入口
二代基因组测序即next generation sequencing (ngs)是一种基于边合成边测序的方式。ngs在保持了测序高准确度的同时,大幅地提高了测序速度,有力推动了相关研究。目前,ngs已广泛应用于全基因组测序、外显子测序、表观遗传学修饰等重要的生物学问题。
本示例中ngs流程基于医疗智能体(eihealth)平台搭建,流程以fastq格式数据作为输入,对碱基的质量信息进行评估,判断可靠程度,通过质控、比对、变异检测等步骤,最终输出包含样本snp、indel的vcf文件。
该案例介绍ngs的搭建步骤,涵盖镜像、应用、流程制作方法。用户也可以使用“资产市场”提供的已经搭建好的“variant calling based on ngs”流程。该案例比“资产市场”流程多出vcf文件进行质控步骤。
功能介绍
- 测序数据质量的总体评估
评估测序的reads数目,测序base数,测序深度等。
- 低质量reads过滤
过滤低质量的测序reads,得到clean reads。
- 基因组比对
将clean reads比对到参考基因组上,同时输出比对率、深度、覆盖度的统计信息。
- 基因组变异检测
基于上述比对得到的bam文件,通过gatk4做variant calling,输出变异检测结果。
- 基因组变异检测质控
通过variantqc对vcf进行质量控制,输出变异数目,变异类型统计等指标。
流程优势
- 使用unix管道技术连接比对和排序步骤,以缩短bwa和samtools的存放、读取、删除中间文件的时间。
- 流程针对gatk4中的限速步骤,进行了系统的优化加速。流程从contig-file中提取contig,根据contig下发对应的任务,并依据不同任务,指定并行下发的任务数,以降低流程整体的运行时间。
流程执行信息
ngs流程由fastp、bwa-mem、picard-insertsize、qualimap-bamqc、gatk-markduplicates、gatk-bqsr、gatk-applybqsr、gatk-haplotypecaller、gatk-mergevcfs和discvrseq-variantqc应用构成。ngs流程执行步骤如表1所示。
步骤 |
描述 |
---|---|
read quality |
对测序得到的fastq数据进行质控。 |
mapping and sort and index |
将质控之后得到的clean reads比对到参考基因组上。 |
insert size estimation |
针对构建index后的bam文件,统计测序数据的insert size的分布。 |
bam qc |
评估比对得到的bam文件的质量。 |
gatk markduplicates |
标记比对bam文件中的重复reads。 |
gatk baserecalibrator |
基于比对bam文件评估矫正参数。 |
gatk applybqsr |
基于比对bam文件进行矫正。 |
gatk haplotypecaller |
基于比对和矫正之后的bam文件进行variant calling的工作。 |
gatk mergevcfs |
合并分bin变异检测的vcf文件。 |
variant qc |
针对输出的vcf文件进行质控。 |
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨