ICS35.240.80
C07
团体标
准
T/CHIA21.2-2021
组学样本处理与数据分析标准
第2部分:全外显子组测序数据分析
Specificationofomicssampleprocessinganddataanalysis
Part2:wholeexomesequencingdataanalysis
2021-07-11发布 2021-08-01实施
中国卫生信息与健康医疗大数据学会
发布
全国团体标准信息平台
T/CHIA21.2-2021
I目次
前言....................................................................................................................................................II
引言...................................................................................................................................................III
1范围.................................................................................................................................................1
2规范性引用文件.............................................................................................................................1
3术语和定义.....................................................................................................................................1
4全外显子数据的文件格式.............................................................................................................3
5全外显子数据的质量控制.............................................................................................................4
6全外显子数据的标准分析流程....................................................................................................5
7全外显子数据的标准个性化分析流程........................................................................................9
全国团体标准信息平台
T/CHIA21.2-2021
II前言
本文件按照GB/T1.1-2020给出的规则起草。
T/CHIA21《组学样本处理与数据分析标准》分为以下五部分:
――第1部分:全基因组测序数据分析;
――第2部分:全外显子组测序数据分析;
――第3部分:转录组样本处理;
――第4部分:转录组文库构建;
――第5部分:转录组测序数据分析。
本文件为T/CHIA21的第2部分。
本文件由中国科学院北京基因组研究所(国家生物信息中心)提出,由中国卫生信息
与健康大数据学会归口。
本文件主要起草单位:中国科学院北京基因组研究所(国家生物信息中心)、中国科
学院生物物理研究所、浙江大学、复旦大学、清华大学、中国人民解放军总医院、北京蛋
白质组研究中心、中国科学院微生物研究所、北京大学人民医院、中国科学院上海营养与
健康研究所、中南大学、空军军医大学(第四军医大学)和华为技术有限公司。
本文件主要起草人:方向东、陈润生、金力、何昆仑、李亦学、张学工、何顺民、段会
龙、周水庚、渠鸿竹、赵学彤、王霞、吕旭东、朱云平、马俊才、杨忠、石乐明、吴松峰、
吴林寰、王振、陈先来、贾志龙、张昭军、娄晓敏、阮修艳、单广乐、乔楠、刘登辉、丁子
建。
全国团体标准信息平台
T/CHIA21.2-2021
III引言
《组学样本处理与数据分析标准第2部分:全外显子组测序数据分析》为全外显子组
数据分析提供一套术语规范、定义明确、语义语境无歧义的流程规范,防止流程缺项、术
语不规范、配置不合理等问题。
本文件依据目前已有的开源软件、部分常见服务器供货商、以及自产的中国人全外显
子组数据,搭建全外显子组数据分析流程、从准确性、速度、以及使用便利性方面评估不
同流程的性能,最终形成《组学样本处理与数据分析标准第2部分:全外显子组测序数据
分析》。
全国团体标准信息平台
T/CHIA21.2-2021
1组学样本处理与数据分析标准
第2部分:全外显子组测序数据分析
1范围
本部分规定了全外显子组测序数据分析流程中涉及的术语和定义。
本部分适用于全外显子组测序数据分析。
2规范性引用文件
下列文件对于本文件的应用的必不可少的,凡是注日期的引用文件,仅注日期的版本
适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文
件。
GB/T30989高通量基因测序技术规程
GB/T35890高通量测序数据序列格式规范
GB/T29859生物信息学术语
3术语和定义
GB/T30989界定的以及下列术语和定义适用于本文件,本文件中仅列出未包含的术语。
3.1
外显子exon
真核生物基因的一部分,在剪接后会被保留在成熟核糖核酸分子中的序列。
[GB/T29859—2013,定义2.2.8]
3.2
全外显子组wholeexome
全部外显子被称为全外显子组。在人类基因中大约有180,000个外显子,外显子组约占
人类全部基因组的1%,约30MB。
3.3
全外显子组测序wholeexomesequencing
利用探针杂交富集外显子区域的DNA序列,然后通过高通量测序,主要识别和研究与
疾病、种群进化相关的编码区及调控区域(UntranslatedRegions,UTR)相关遗传突变的技
术手段。
3.4
测序深度sequencingdepth
测序深度是指测序得到的总碱基数与待测基因组大小的比值,是基因组中每个碱基被
测序到的平均次数。
3.5
测序片段reads
高通量测序平台产生的含有碱基序列和质量值的序列片段。
[GB/T35890—2018,定义3.2]
3.6
全国团体标准信息平台
T/CHIA21.2-2021
2变异variation
变异是生物体、病毒或染色体外DNA基因组核苷酸序列的改变。包括单核苷酸变异、
核苷酸小片段插入、缺失变异和结构变异。
3.7
FASTQ格式FASTQformat
FASTQ是基于文本的、保存生物序列(通常是核酸序列)和其测序质量信息的、每四
行表示一条序列的标准格式。
[GB/T35890—2018,定义3.9]
3.8
VCF文件variantcallformatfile
用于记录variants(SNV/InDel/SV)的文件格式。
3.9
参考基因组referencegenome
参考基因组是由科学家组装的一个数字核酸序列数据库,代表一个物种理想条件下基
因集合的所有信息。
3.10
GATKthegenomeanalysistoolkit
由布罗德研究所的数据科学平台开发的工具包,内含多种基因组分析工具,可广泛应
用于人类和其他物种的数据分析。目前,GATK已经成为了基因组寻找变异的行业标准。
3.11
质量控制qualitycontrol
测序数据的质量好坏会影响数据的下游分析,质量控制指对测序仪下机的原始数据进
行质量评估,具体内容包括含N比例、GC含量、duplication情况、序列长度分布情况、碱
基平衡情况等。
3.12
Q20
原始数据中Phred数值大于20的碱基数量占总碱基数量的百分比。
3.13
Q30
原始数据中Phred数值大于30的碱基数量占总碱基数量的百分比。
3.14
等位基因频率allelefrequency
用来显示一个种群中特定基因座上各个等位基因所占的频率,或者等位基因在基因库
中的丰富程度。
3.15
基因分型genotyping
利用生物学检测方法测定个体基因型(Genotype)的技术,主要对变异的纯合和杂合
性进行判断。
3.16
单体型基因分型phasingimputation
利用生物体基因组测序数据对基因组变异进行单倍体分型,主要将杂合变异分到两个
单倍体型上。
全国团体标准信息平台
T/CHIA21.2-2021
33.17
注释annotation
对找到的变异进行注释,确定变异在染色体上的位置,是哪个基因发生突变以及相关
蛋白质的变化情况等信息。
3.18
从头组装denovoassembly
从头组装可以将原始reads拼接成较长的contigs序列,基于contigs和参考基因组的比对
结果进行变异识别,可以增加识别的准
T-CHIA 21.2—2021 组学样本处理与数据分析标准 第 2 部分:全外显子组测序数据分析
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2022-12-13 11:53:28上传分享