ICS 35.240.80
C 07
团体标准
T/CHIA 21.5-2021
组学样本处理与数据分析标准
第5部分:转录组测序数据分析
Specification of omics sample processing and data analysis
Part 5:transcriptome sequencing data analysis
2021-07-11发布 2021-08-01实施
中国卫生信息与健康医疗大数据学会
发布
全国团体标准信息平台
T/CHIA 21.5-2021
I
目 次
前言 ................................ ................................ ................................ ................................ .................. II
引言 ................................ ................................ ................................ ................................ ................. III
1 范围 ................................ ................................ ................................ ................................ ............... 1
2 规范性引用文件 ................................ ................................ ................................ ........................... 1
3 术语和定义 ................................ ................................ ................................ ................................ ... 1
4 缩略词 ................................ ................................ ................................ ................................ ........... 3
5 普通转录组分析流程 ................................ ................................ ................................ ................... 3
6 单细胞转录组测序数据分析流程 ................................ ................................ ............................... 4
全国团体标准信息平台
T/CHIA 21.5-2021
II 前 言
本文件按照 GB/T 1.1 -2020给出的规则起草。
T/CHIA 21《组学样本处理与数据分析标准》 分为以下五部分:
――第1部分:全基因组测序数据分析;
――第2部分:全外显子组测序数据分析;
――第3部分:转录组样本处理;
――第4部分:转录组文库构建;
――第5部分:转录组测序数据分析。
本文件为T/CHIA 21的第 5部分。
本文件由中国科学院北京基因组研究所(国家生物信息中心) 提出,由中国卫生信息
与健康大数据学会归口 。
本文件起草单位:中国科学院北京基因组研究所(国家生物信息中心)、中国科学院
生物物理研究所、 浙江大学、复旦大学、清华大学、中国人民解放军总医院、 北京蛋白质
组研究中心、中国科学院微生物研究所、 北京大学人民医院、中国科学院上海营养与健康
研究所、中南大学、 空军军医大学(第四军医大学) 和华为技术有限公司 。
本文件主要起草人: 方向东、陈润生、金力、何昆仑、李亦学、张学工、何顺民、段会
龙、周水庚、渠鸿竹、赵思琪、钱颖、王霞、吕旭东、朱云平、 马俊才、杨忠、石乐明、吴
松峰、吴林寰、王振、陈先来、贾志龙、张昭军、娄晓敏、阮修艳、单广乐、乔楠、刘登辉、
丁子建。
全国团体标准信息平台
T/CHIA 21.5-2021
III 引 言
《组学样本处理与数据分析标准 第5部分:转录组测序数据分析 》旨在为转录组测序
数据提供一套术语规范、定义明确、语义语境无歧义的数据分析流程标准,从而实现 转录
组测序数据在收集、存储、比较、分析等过程中的一致性和可比性,搭建 转录组测序数据
分析的分析流程。
本部分从准确性、速度、以及使用便利性方面评估不同 转录组流程的性能,最终形成
全转录组数据分析流程规范。为了及时反映全转 录组数据分析流程的变化情况,本文件将
不断更新以符合当前的实际情况。
全国团体标准信息平台
T/CHIA 21.5-2021
1 组学样本处理与数据分析标准
第5部分:转录组测序数据分析
1 范围
本文件给出了转录组数据分析流程中涉及的术语和定义。
本文件适用于转录组数据分析。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。 凡是注日期的引用文件 ,仅注日期的版本适
用于本文件。凡是不注日期的引用文件 ,其最新版本 (包括所有的修改 )单适用于本文件。
GB/T 0989 —2014 高通量基因测序技术规程
GB/T 37870 —2019 个体鉴定的高通量测序方法
GB/T 29859 —2013 生物信息学术语
3 术语和定义
下列术语和定义适用于本标准 。
3.1
转录组测序 whole transcriptome sequencing
是通过二代测序平台快速全面地获得某一物种特定细胞或组织在某一状态下的几乎
所有的转录本及基因序列,可以用于研究基因表达量、基因功能、结构、可变剪接和新转
录本预测等。
3.2
FASTQ格式 FASTQ format
FASTQ是基于文本的、保存生物序列(通常是核酸序列)和其测序质量信息的、每四
行表示一条序列的标准格式。
[GB/T 35890 —2018,定义 3.9]
3.3
质量控制 quality control
测序数据的质量好坏会影响数据的下游分析, 质量控制指 对测序仪 下机的原始数据进
行质量评估,具体内容包括含 N比例、 GC含量、 duplication 情况、序列长度分布情况、碱
基平衡情况等。
3.4
测序片段 reads
高通量测序 平台产生的含有 碱基序列 和质量值的序列片段 。
3.5
参考基因组 reference genome
全国团体标准信息平台
T/CHIA 21.5-2021
2 由科学家组装成的一个数字核酸序列数据库, 代表一个物种理想条件下基因集合的所
有信息。
[GB/T 35890 —2018,定义 3.2]
3.6
Reads per kilobase per million mapped reads
每一百万条 Reads中,对基因的每 1000个碱基而言,比对到该 1000个碱基的Reads数。
3.7
FPKM Fragments Per Kilobase of transcript per Million fragments mapped
每一百万个 reads中map到外显子的每 1000个reads上的 fragment个数。
3.8
TPM Transcripts Per Million
每一百万 Reads中,按照基因长度标准化之后的转录本个数。
3.9
差异表达基因 differentially expressed genes (DEGs)
通过阈值法、 统计法或者其他检验方法 ,筛选出组间的 表达水平存在显著差异的基因。
3.10
差异表达转录本 differentially expressed transcripts
在转录本水平上,每一个基因对应不同的转录本,在不同条件下,存在 显著表达差异
的转录本。
3.11
可变剪接 alternative splicing
一个 mRNA前体中通过不同的剪接方式 (
T-CHIA 21.5—2021 组学样本处理与数据分析标准 第 5 部分:转录组测序数据分析
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2022-12-13 11:53:23上传分享