(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211290871.2
(22)申请日 2022.10.21
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 梁亦龙 戈其珺 舒坤贤
(74)专利代理 机构 重庆辉腾律师事务所 5 0215
专利代理师 王海军
(51)Int.Cl.
G16B 20/50(2019.01)
G16B 30/10(2019.01)
G16B 40/30(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的蛋白质 适应度预测方
法
(57)摘要
本发明属于生命 科学领域, 具体涉及一种基
于深度学习的蛋白质适应度预测方法, 包括: 对
目标蛋白质进行多序列比对, 并推断其进化耦
合, 并获取同源蛋白质序列的局部进化表示; 利
用蛋白质语言模型来获取目标蛋白质的氨基酸
特征; 对目标蛋白质的氨基酸序列进行位置嵌入
表示, 得到位置特征; 将目标蛋白质的局部进化
表示和氨基酸特征与位置特征输入到混合神经
网络模型中提取特征, 将提取的特征通过全 连接
计算, 得到蛋白质适应度的预测结果值。 本发明
提出了一种新的混合神经网络, 网络充分利用了
蛋白质序列的局部进化信息和氨基酸特征信息,
可以更有效的提取并学习蛋白质序列数据, 提高
了预测精度。
权利要求书2页 说明书5页 附图2页
CN 115472221 A
2022.12.13
CN 115472221 A
1.一种基于深度学习的蛋白质适应度预测方法, 其特 征在于, 包括:
S1: 获取大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集;
S2: 根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的蛋
白质对目标蛋白质进行多序列比对, 并推 断其进化耦合, 并获取同源蛋白质序列的局部进
化表示;
S3: 利用蛋白质语言模型来获取目标蛋白质的氨基酸特 征;
S4: 对目标蛋白质的氨基酸序列进行位置嵌入表示, 得到位置特 征;
S5: 将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型
中提取特征, 将提取的特 征通过全连接计算, 得到蛋白质适应度的预测结果 值。
2.根据权利要求1所述的一种基于深度 学习的蛋白质适应度 预测方法, 其特征在于, 所
述S2具体包括:
使用HH‑Suite中的HHblits搜索根据大规模深度 突变扫描数据 集和已发表的文献中整
理的随机突变数据集中的目标蛋白质的同源蛋白质序列, 并将搜索到的同源蛋白质序列格
式化为A3M多序列比对格式, 通过CCMPred使用马尔可夫随机场学习同源蛋白质序列的多序
列比对来识别进化耦合, 得到耦合矩阵eij和位点偏好向量ei, 根据位点偏好向量ei和耦合
矩阵eij构建蛋白质协同进化信息的数据表示, 得到同源蛋白质序列的局部进化表示。
3.根据权利要求2所述的一种基于深度 学习的蛋白质适应度 预测方法, 其特征在于, 通
过CCMPred使用马尔可 夫随机场学习同源序列的多序列比对来识别进化耦合, 表示 为:
其中, L(e)表示进化耦合概率, ei表示位点偏好向量, eij表示耦合矩阵,
表示第n个序
列中的第i个氨基酸,
表示第n个序列中 的第j个氨基酸, Z表示归一化常数, N是同源序列
的个数, L是多序列比对中的列数, exp()表示以自然常数 e为底的指数函数。
4.根据权利要求2所述的一种基于深度 学习的蛋白质适应度 预测方法, 其特征在于, 根
据位点偏好向量ei和第一耦合矩阵eij构建蛋白质协同进化信息的数据表示, 表示 为:
Vi=[ei(xi),ei1(xi,x1),ei2(xi,x2),ei3(xi,x3),...,eiL(xi,xL)]
其中, Vi表示蛋白质协同进化信息的数据表示即局部进化表示, ei表示位点偏好向量,
eiL表示第L个耦合矩阵, xi表示第i个氨基酸, xL表示第L个氨基酸。
5.根据权利要求1所述的一种基于深度 学习的蛋白质适应度 预测方法, 其特征在于, 利
用蛋白质语言模型来获取目标蛋白质的氨基酸特 征, 具体包括:
蛋白质语言模型ESM ‑1b根据输入的目标蛋白质序列, 为目标蛋白质的每个氨基酸生成
1280维的矢量表示, 得到包 含有关生物特性信息的氨基酸特 征。
6.根据权利要求1所述的一种基于深度 学习的蛋白质适应度 预测方法, 其特征在于, 所
述S4具体包括:
目标蛋白质的氨基酸序列通过20维嵌入层, 得到氨基酸嵌入特征, 对嵌入特征进行
Position Embedding, 得到位置特 征。权 利 要 求 书 1/2 页
2
CN 115472221 A
27.根据权利要求1所述的一种基于深度 学习的蛋白质适应度 预测方法, 其特征在于, 所
述混合神经网络模型包括: 双向门控循环单元、 TextCNN层、 BN层、 两个全连接层、 dropout
层。
8.根据权利要求1所述的一种基于深度 学习的蛋白质适应度 预测方法, 其特征在于, 所
述S5具体包括:
将目标蛋白质的局部进化表示和氨基酸特征经过线性降维后 拼接, 将位置特征和降维
后的特征按序列的位置顺序连接, 将连接后的特征输入双向门控循环单元为序列中每个氨
基酸产生一个隐藏状态向量, 将隐藏状态向量输入T extCNN层, 通过卷积操作和池化操作提
取序列特征, 提取 的序列特征通过BN层进行批量归一化操作, 将归一化后的序列特征通过
具有tanh激活函数的两层 全连接层, 并在两层 全连接层中用dr opout层进行防止过拟合, 得
到预测适应度值。权 利 要 求 书 2/2 页
3
CN 115472221 A
3
专利 一种基于深度学习的蛋白质适应度预测方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:21上传分享