专利 一种基于深度学习的蛋白质适应度预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211290871.2 (22)申请日 2022.10.21 (71)申请人重庆邮电大学地址 400065 重庆市南岸区南山街道崇文路2号 (72)发明人梁亦龙　戈其珺　舒坤贤　 (74)专利代理机构重庆辉腾律师事务所 5 0215 专利代理师王海军 (51)Int.Cl. G16B 20/50(2019.01) G16B 30/10(2019.01) G16B 40/30(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的蛋白质适应度预测方法 (57)摘要本发明属于生命科学领域，具体涉及一种基于深度学习的蛋白质适应度预测方法，包括：对目标蛋白质进行多序列比对，并推断其进化耦合，并获取同源蛋白质序列的局部进化表示；利用蛋白质语言模型来获取目标蛋白质的氨基酸特征；对目标蛋白质的氨基酸序列进行位置嵌入表示，得到位置特征；将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型中提取特征，将提取的特征通过全连接计算，得到蛋白质适应度的预测结果值。本发明提出了一种新的混合神经网络，网络充分利用了蛋白质序列的局部进化信息和氨基酸特征信息，可以更有效的提取并学习蛋白质序列数据，提高了预测精度。权利要求书2页说明书5页附图2页 CN 115472221 A 2022.12.13 CN 115472221 A 1.一种基于深度学习的蛋白质适应度预测方法，其特征在于，包括： S1：获取大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集； S2：根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的蛋白质对目标蛋白质进行多序列比对，并推断其进化耦合，并获取同源蛋白质序列的局部进化表示； S3：利用蛋白质语言模型来获取目标蛋白质的氨基酸特征； S4：对目标蛋白质的氨基酸序列进行位置嵌入表示，得到位置特征； S5：将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型中提取特征，将提取的特征通过全连接计算，得到蛋白质适应度的预测结果值。 2.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，所述S2具体包括：使用HH‑Suite中的HHblits搜索根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的目标蛋白质的同源蛋白质序列，并将搜索到的同源蛋白质序列格式化为A3M多序列比对格式，通过CCMPred使用马尔可夫随机场学习同源蛋白质序列的多序列比对来识别进化耦合，得到耦合矩阵eij和位点偏好向量ei，根据位点偏好向量ei和耦合矩阵eij构建蛋白质协同进化信息的数据表示，得到同源蛋白质序列的局部进化表示。 3.根据权利要求2所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，通过CCMPred使用马尔可夫随机场学习同源序列的多序列比对来识别进化耦合，表示为：其中， L(e)表示进化耦合概率， ei表示位点偏好向量， eij表示耦合矩阵，表示第n个序列中的第i个氨基酸，表示第n个序列中的第j个氨基酸， Z表示归一化常数， N是同源序列的个数， L是多序列比对中的列数， exp()表示以自然常数 e为底的指数函数。 4.根据权利要求2所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，根据位点偏好向量ei和第一耦合矩阵eij构建蛋白质协同进化信息的数据表示，表示为： Vi＝[ei(xi),ei1(xi,x1),ei2(xi,x2),ei3(xi,x3),...,eiL(xi,xL)] 其中， Vi表示蛋白质协同进化信息的数据表示即局部进化表示， ei表示位点偏好向量， eiL表示第L个耦合矩阵， xi表示第i个氨基酸， xL表示第L个氨基酸。 5.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，利用蛋白质语言模型来获取目标蛋白质的氨基酸特征，具体包括：蛋白质语言模型ESM ‑1b根据输入的目标蛋白质序列，为目标蛋白质的每个氨基酸生成 1280维的矢量表示，得到包含有关生物特性信息的氨基酸特征。 6.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，所述S4具体包括：目标蛋白质的氨基酸序列通过20维嵌入层，得到氨基酸嵌入特征，对嵌入特征进行 Position Embedding，得到位置特征。权　利　要　求　书 1/2 页 2 CN 115472221 A 27.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，所述混合神经网络模型包括：双向门控循环单元、 TextCNN层、 BN层、两个全连接层、 dropout 层。 8.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，所述S5具体包括：将目标蛋白质的局部进化表示和氨基酸特征经过线性降维后拼接，将位置特征和降维后的特征按序列的位置顺序连接，将连接后的特征输入双向门控循环单元为序列中每个氨基酸产生一个隐藏状态向量，将隐藏状态向量输入T extCNN层，通过卷积操作和池化操作提取序列特征，提取的序列特征通过BN层进行批量归一化操作，将归一化后的序列特征通过具有tanh激活函数的两层全连接层，并在两层全连接层中用dr opout层进行防止过拟合，得到预测适应度值。权　利　要　求　书 2/2 页 3 CN 115472221 A 3

专利 一种基于深度学习的蛋白质适应度预测方法

专利一种基于深度学习的蛋白质适应度预测方法