(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111638768.8
(22)申请日 2021.12.2 9
(71)申请人 深圳华大基因股份有限公司
地址 518000 广东省深圳市 盐田区洪安 三
街21号华大综合园7栋7层-14层
(72)发明人 彭继光 韦荔全 彭智宇
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
代理人 彭祯奇
(51)Int.Cl.
G16B 5/20(2019.01)
G16B 35/20(2019.01)
G16B 40/20(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
遗传变异致病性预测方法、 装置、 存储介质
及计算机设备
(57)摘要
本申请提供的遗传变异 致病性预测方法、 装
置、 存储介质及计算机设备, 首先确定与待预测
的基因变异位点对应的特征数据, 接着通过遗传
变异致病性预测模型来对该特征数据进行预测,
并得到遗传变异致病性预测结果; 由于遗传变异
致病性预测模型是按照不同的致病性等级分类
设计的多个目标预测子模型集 成得到的, 且每一
目标预测子模 型在训练时, 都是以其对应的致病
性等级分类的训练基因变异位点的特征数据作
为训练样 本, 以训练基因变异位点的致病性等级
分类作为样 本标签进行训练的, 同时训练样本包
含了所有突变类型, 因此, 该遗传变异致病性预
测模型适用于所有的突变类型, 并能够根据输入
的该基因变异位点的特征数据得到准确的遗传
变异致病性预测结果。
权利要求书3页 说明书13页 附图3页
CN 114300036 A
2022.04.08
CN 114300036 A
1.一种遗传变异致病性预测方法, 其特 征在于, 所述方法包括:
获取待预测的基因变异位 点;
确定与所述待预测的基因变异位 点对应的特 征数据;
将所述特征数据输入至预先配置的遗传变异致病性预测模型, 得到所述遗传变异致病
性预测模型输出的遗传变异致病性预测结果;
其中, 所述遗传变异致病性预测模型为按照 不同的致病性等级分类设计的多个目标预
测子模型集成得到的, 且每一目标预测子模型以其对应的致病性等级分类的训练基因变异
位点的特征数据作为训练样本, 以所述训练基因变异位点的致病性等级分类作为样本标签
训练得到的。
2.根据权利要求1所述的方法, 其特征在于, 所述确定与 所述待预测的基因变异位点对
应的特征数据, 包括:
调用本地注释文件, 所述本地注释文件为预先从变异位点功能注释库中下载的注释文
件;
在所述本地注释文件中查找与所述待预测的基因变异位 点对应的特 征数据;
若在所述本地注释文件中未查找到与所述待预测的基因变异位点对应的特征数据, 则
调用网页API接口, 通过 所述网页API接口获取与所述基因变异位 点对应的特 征数据。
3.根据权利要求1或2所述的方法, 其特征在于, 所述将所述特征数据输入至预先配置
的遗传变异致病性预测模型之前, 还 包括:
根据所述特 征数据的缺失情况对所述特 征数据添加衍 生变量;
将所述衍生变量显示 为缺失的特 征数据进行补全;
对补全后的特 征数据进行归一 化处理。
4.根据权利要求1 ‑3中任一项所述的方法, 其特征在于, 每一目标预测子模型的训练过
程, 包括:
确定初始预测子模型, 并获取所述初始预测子模型对应的致病性等级分类, 以及所述
致病性等级分类的训练基因变异位 点的特征数据;
采用k折交叉验证的方式, 将所述训练基因变异位点的特征数据划分为k个数据集, 并
进行k轮模型训练;
每轮模型训练时, 选取其中一个数据集作为验证集, 剩余数据集作为训练集, 利用所述
训练集中的特征数据对所述初始预测子模型进 行训练, 利用所述验证集中的特征数据对训
练后的初始预测子模型进行验证, 得到验证结果;
根据所述初始预测子模型对应的致病性等级分类, 选取k轮模型训练的验证结果中预
测准确率 最高的模型作为目标 预测子模型。
5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述遗传变异致病性预测模型
包括主方向预测层、 方向矫 正层、 程度预测层和映射层;
将所述特征数据输入至预先配置的遗传变异致病性预测模型, 得到所述遗传变异致病
性预测模型输出的遗传变异致病性预测结果, 包括:
将所述特征数据输入至所述主方向预测层中, 对所述特征数据的遗传变异主方向进行
预测, 得到 遗传变异主方向预测结果;
通过所述方向矫正层对所述遗传变异主方向预测结果的遗传变异主方向进行矫正, 得权 利 要 求 书 1/3 页
2
CN 114300036 A
2到遗传变异主方向矫 正结果;
利用所述程度 预测层对所述遗传变异主方向矫正结果进行概率值预测, 得到概率值预
测结果;
通过所述映射层将所述概率值预测结果映射到对应的映射区间, 得到最终的映射分
值, 并将所述映射分值作为遗传变异致病性预测结果。
6.根据权利要求1 ‑5中任一项所述的方法, 其特征在于, 所述目标预测子模型包括三分
类模型和二分类模型;
所述三分类模型应用于所述主方向预测层和所述方向矫正层, 所述二分类模型应用于
所述方向矫 正层和所述 程度预测层。
7.根据权利要求1 ‑6中任一项所述的方法, 其特征在于, 应用于所述主方向预测层的三
分类模型包括第一分类模型, 所述第一分类模 型用于对所述特征数据的遗传变异主方向进
行预测, 所述遗传变异主方向包括 致病倾向、 临床意 义不明确和良性倾向;
应用于所述方向矫正层的三分类模型包括第 二分类模型和第 三分类模型, 所述第 二分
类模型用于对所述遗传变异主方向中的致病、 可能致病和临床意义不明确进行矫正, 所述
第三分类模型用于对所述遗传变异主方向中的良性、 可能良性和临床意义不明确进行矫
正;
应用于所述方向矫正层的二分类模型包括第四分类模型, 所述第四分类模型用于对所
述遗传变异主方向中的致病倾向和良性 倾向进行矫 正;
应用于所述程度预测层的二分类模型包括第五分类模型、 第六分类模型、 第七分类模
型和第八 分类模型;
其中, 所述第五分类模型用于对所述遗传变异主方向矫正结果中致病或可能致病的概
率值进行预测, 所述第六分类模型用于对所述遗传变异主方向矫正结果中可能致病或临床
意义不明确的概率值进行预测, 第七分类模型用于对所述遗传变异主方向矫正结果中良性
或可能良性的概率值进行预测, 所述第八分类模型用于对所述遗传变异主方向矫正结果中
可能良性或临床意 义不明确的概 率值进行预测。
8.一种遗传变异致病性预测装置, 其特 征在于, 包括:
位点获取模块, 用于获取待预测的基因变异位 点;
特征确定模块, 用于确定与所述待预测的基因变异位 点对应的特 征数据;
致病性预测模块, 用于将所述特征数据输入至预先配置的遗传变异致病性预测模型,
得到所述遗传变异致病性预测模型输出的遗传变异致病性预测结果;
其中, 所述遗传变异致病性预测模型为按照 不同的致病性等级分类设计的多个目标预
测子模型集成得到的, 且每一目标预测子模型以其对应的致病性等级分类的训练基因变异
位点的特征数据作为训练样本, 以所述训练基因变异位点的致病性等级分类作为样本标签
训练得到的。
9.一种存储介质, 其特征在于: 所述存储介质中存储有计算机可读指令, 所述计算机可
读指令被一个或多个处理器执行时, 使得一个或多个处理器执行如权利要求 1至7中任一项
所述遗传变异致病性预测方法的步骤。
10.一种计算机设备, 其特 征在于, 包括: 一个或多个处 理器, 以及存 储器;
所述存储器中存储有计算机可读指令, 所述计算机可读指令被所述一个或多个处理器权 利 要 求 书 2/3 页
3
CN 114300036 A
3
专利 遗传变异致病性预测方法、装置、存储介质及计算机设备
安全报告 >
其他 >
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:56:57上传分享