专利多肽序列的生成方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211319513.X (22)申请日 2022.10.26 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人林大勇　刘荔行　方晓敏　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师张润 (51)Int.Cl. G16B 15/20(2019.01) G16B 40/00(2019.01) G06N 3/04(2006.01) (54)发明名称多肽序列的生成方法、装置、电子设备及存储介质 (57)摘要本公开提供了一种多肽序列的生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及生物计算等技术领域。具体实施方案为：获取由多个第一氨基酸组成的蛋白质序列；对蛋白质序列进行编码，得到蛋白质序列L行的第一表征向量；通过注意力机制，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中， K为大于或者等于1的自然数；基于K个第二氨基酸，生成多肽序列。解析蛋白质序列中每一个氨基酸的第一表征向量，通过注意力机制对第一表征向量进行解码生成多肽序列，可以提升预测多肽序列的专注度，以此提升多肽序列预测的准确性和预测效率，降低多肽序列的预测成本。权利要求书3页说明书9页附图3页 CN 115512762 A 2022.12.23 CN 115512762 A 1.一种多肽序列的生成方法，包括：获取由多个第一氨基酸组成的蛋白质序列；对所述蛋白质序列进行编码，得到所述蛋白质序列L行的第一表征向量，所述第一表征向量中包括所述多个氨基酸之间的相互关联信息，其中，所述 L为大于或者等于1的自然数；通过注意力机制，对所述蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中，所述K为大于或者等于1的自然数；基于K个所述第二氨基酸，生成多肽序列。 2.根据权利要求1所述的方法，其中，所述通过注意力机制，对所述蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，包括：从首行第一表征向量开始逐个输入解码器中，由所述解码器对当前输入的第一表征向量进行解码，得到相应的解码出的第二氨基酸；基于所述解码器当前已解码出的N个第二氨基酸，获取第二表征向量，其中，所述第二表征向量中包括所述 N个第二氨基酸之间的相互关联信息；对所述解码器当前输入的第一表征向量和所述第二表征向量进行注意力机制，得到第 N+1个第二氨基酸。 3.根据权利要求2所述的方法，其中，所述对所述解码器当前输入的第一表征向量和所述第二表征向量进行注意力机制，得到第N+1个第二氨基酸，包括：对所述解码器当前输入的第一表征向量和所述第二表征向量进行融合，得到第三表征向量；根据所述第三表征向量，获取氨基酸词典中每个第二氨基酸的生成概率；根据所述生成概率确定所述第N+1个第二氨基酸。 4.根据权利要求3所述的方法，其中，所述根据所述第三表征向量，获取所述氨基酸词典中每个第二氨基酸的生成概率，包括：对所述第三表征向量取平均后进行线性变换，得到氨基酸词典大小的目标表征向量；对所述目标表征向量进行归一化操作，得到所述氨基酸词典中每个第二氨基酸的生成概率。 5.根据权利要求3所述的方法，其中，所述根据所述生成概率确定所述第N+1个第二氨基酸，包括：从所述氨基酸词典中，选取所述生成概率最大的第二氨基酸作为所述第N+1个第二氨基酸。 6.根据权利要求2所述的方法，其中，所述方法还包括：每当所述解码器解码出新的第二氨基酸，基于所述新的第二氨基酸对所述第二表征向量进行更新。 7.根据权利要求1所述的方法，其中，所述方法还包括：响应于所述解码器解码到所述蛋白质序列的终止标识，停止继续解码，并输出所有解码出的第二氨基酸。 8.根据权利要求1所述的方法，其中，所述基于所述K个第二氨基酸，生成多肽序列，包括：获取所述K个第二氨基酸中每个第二氨基酸的解码时间；权　利　要　求　书 1/3 页 2 CN 115512762 A 2按照所述解码时间从早到晚对所述K个第二氨基酸进行合成，以生成所述多肽序列。 9.根据权利要求1所述的方法，其中，所述对所述蛋白质序列进行编码，得到所述蛋白质序列L行的第一表征向量，包括：将所述蛋白质序列输入预训练的编码器中，由所述编码器获取所述蛋白质序列L行的初始表征向量，并对所述初始表征向量进行注意力机制，得到所述蛋白质序列L行的第一表征向量。 10.一种多肽序列的生成装置，包括：获取模块，用于获取由多个第一氨基酸组成的蛋白质序列；编码模块，用于对所述蛋白质序列进行编码，得到所述蛋白质序列L行的第一表征向量，所述第一表征向量中包括所述多个氨基酸之间的相互关联信息，其中，所述L为大于或者等于1的自然数；解码模块，用于通过注意力机制，对所述蛋白质序列的第一表征向量进行解码，得到K 个第二氨基酸，其中，所述K为大于或者等于1的自然数；生成模块，用于基于K个所述第二氨基酸，生成多肽序列。 11.根据权利要求10所述的装置，其中，所述解码模块，还用于：从首行第一表征向量开始逐个输入解码器中，由所述解码器对当前输入的第一表征向量进行解码，得到相应的解码出的第二氨基酸；基于所述解码器当前已解码出的N个第二氨基酸，获取第二表征向量，其中，所述第二表征向量中包括所述 N个第二氨基酸之间的相互关联信息；对所述解码器当前输入的第一表征向量和所述第二表征向量进行注意力机制，得到第 N+1个第二氨基酸。 12.根据权利要求1 1所述的装置，其中，所述解码模块，还用于：对所述解码器当前输入的第一表征向量和所述第二表征向量进行融合，得到第三表征向量；根据所述第三表征向量，获取氨基酸词典中每个第二氨基酸的生成概率；根据所述生成概率确定所述第N+1个第二氨基酸。 13.根据权利要求12所述的装置，其中，所述解码模块，还用于：对所述第三表征向量取平均后进行线性变换，得到氨基酸词典大小的目标表征向量；对所述目标表征向量进行归一化操作，得到所述氨基酸词典中每个第二氨基酸的生成概率。 14.根据权利要求12所述的装置，其中，所述解码模块，还用于：从所述氨基酸词典中，选取所述生成概率最大的第二氨基酸作为所述第N+1个第二氨基酸。 15.根据权利要求1 1所述的装置，其中，所述解码模块，还用于：每当所述解码器解码出新的第二氨基酸，基于所述新的第二氨基酸对所述第二表征向量进行更新。 16.根据权利要求10所述的装置，其中，所述解码模块，还用于：响应于所述解码器解码到所述蛋白质序列的终止标识，停止继续解码，并输出所有解码出的第二氨基酸。权　利　要　求　书 2/3 页 3 CN 115512762 A 3

专利 多肽序列的生成方法、装置、电子设备及存储介质

专利多肽序列的生成方法、装置、电子设备及存储介质