全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211319513.X (22)申请日 2022.10.26 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 林大勇 刘荔行 方晓敏  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 张润 (51)Int.Cl. G16B 15/20(2019.01) G16B 40/00(2019.01) G06N 3/04(2006.01) (54)发明名称 多肽序列 的生成方法、 装置、 电子设备及存 储介质 (57)摘要 本公开提供了一种多肽序列的生 成方法、 装 置、 电子设备及存储介质, 涉及人工智 能技术领 域, 具体涉及生物计算等技术领域。 具体实施方 案为: 获取由多个第一氨基酸组成的蛋白质序 列; 对蛋白质序列进行编码, 得到蛋白质序列L行 的第一表征向量; 通过注意力机制, 对蛋白质序 列的第一表征向量进行解码, 得到K个第二氨基 酸, 其中, K为大于或者等于1的自然数; 基于K个 第二氨基酸, 生成多肽序列。 解析蛋白质序列中 每一个氨基酸的第一表征向量, 通过注意力机制 对第一表征向量进行解码生 成多肽序列, 可以提 升预测多肽序列的专注度, 以此提升多肽序列预 测的准确性和预测效率, 降低多肽序列的预测成 本。 权利要求书3页 说明书9页 附图3页 CN 115512762 A 2022.12.23 CN 115512762 A 1.一种多肽序列的生成方法, 包括: 获取由多个第一氨基酸组成的蛋白质序列; 对所述蛋白质序列进行编码, 得到所述蛋白质序列L行的第 一表征向量, 所述第 一表征 向量中包括所述多个氨基酸之间的相互关联信息, 其中, 所述 L为大于或者 等于1的自然数; 通过注意力机制, 对所述蛋白质序列的第一表征向量进行解码, 得到K个第二氨基酸, 其中, 所述K为大于或者 等于1的自然数; 基于K个所述第二氨基酸, 生成多肽序列。 2.根据权利要求1所述的方法, 其中, 所述通过注意力机制, 对所述蛋白质序列的第一 表征向量进行解码, 得到K个第二氨基酸, 包括: 从首行第一表征向量开始逐个输入解码器中, 由所述解码器对当前输入的第 一表征向 量进行解码, 得到相应的解码出的第二氨基酸; 基于所述解码器当前已解码出的N个第二氨基酸, 获取第二表征向量, 其中, 所述第二 表征向量中包括所述 N个第二氨基酸之间的相互关联信息; 对所述解码器当前输入的第 一表征向量和所述第 二表征向量进行注意力 机制, 得到第 N+1个第二氨基酸。 3.根据权利要求2所述的方法, 其中, 所述对所述解码器当前输入的第 一表征向量和所 述第二表征向量进行注意力机制, 得到第N+1个第二氨基酸, 包括: 对所述解码器当前输入的第 一表征向量和所述第 二表征向量进行融合, 得到第 三表征 向量; 根据所述第三表征向量, 获取氨基酸词典中每 个第二氨基酸的生成概 率; 根据所述 生成概率确定所述第N+1个第二氨基酸。 4.根据权利要求3所述的方法, 其中, 所述根据所述第三表征向量, 获取所述氨基酸词 典中每个第二氨基酸的生成概 率, 包括: 对所述第三表征向量取平均后进行线性变换, 得到氨基酸词典大小的目标表征向量; 对所述目标表征向量进行归一化操作, 得到所述氨基酸词典中每个第 二氨基酸的生成 概率。 5.根据权利要求3所述的方法, 其中, 所述根据所述生成概率确定所述第N+1个第二氨 基酸, 包括: 从所述氨基酸词典中, 选取所述生成概率最大的第二氨基酸作为所述第N+1个第二氨 基酸。 6.根据权利要求2所述的方法, 其中, 所述方法还 包括: 每当所述解码器解码出新的第 二氨基酸, 基于所述新的第 二氨基酸对所述第 二表征向 量进行更新。 7.根据权利要求1所述的方法, 其中, 所述方法还 包括: 响应于所述解码器解码到所述蛋白质序列的终止标识, 停止继续解码, 并输出所有解 码出的第二氨基酸。 8.根据权利要求1所述的方法, 其中, 所述基于所述K个第二氨基酸, 生成多肽序列, 包 括: 获取所述K个第二氨基酸中每 个第二氨基酸的解码时间;权 利 要 求 书 1/3 页 2 CN 115512762 A 2按照所述 解码时间从早到晚对所述K个第二氨基酸进行合成, 以生成所述多肽序列。 9.根据权利要求1所述的方法, 其中, 所述对所述蛋白质序列进行编码, 得到所述蛋白 质序列L行的第一表征向量, 包括: 将所述蛋白质序列输入预训练的编码器中, 由所述编码器获取所述蛋白质序列L行的 初始表征向量, 并对 所述初始表征向量进 行注意力机制, 得到所述蛋白质序列L行的第一表 征向量。 10.一种多肽序列的生成装置, 包括: 获取模块, 用于获取由多个第一氨基酸组成的蛋白质序列; 编码模块, 用于对所述蛋白质序列进行编码, 得到所述蛋白质序列L行的第一表征向 量, 所述第一表征向量中包括所述多个氨基酸之间的相互关联信息, 其中, 所述L为大于或 者等于1的自然数; 解码模块, 用于通过注意力机制, 对所述蛋白质序列的第一表征向量进行解码, 得到K 个第二氨基酸, 其中, 所述K为大于或者 等于1的自然数; 生成模块, 用于基于K个所述第二氨基酸, 生成多肽序列。 11.根据权利要求10所述的装置, 其中, 所述 解码模块, 还用于: 从首行第一表征向量开始逐个输入解码器中, 由所述解码器对当前输入的第 一表征向 量进行解码, 得到相应的解码出的第二氨基酸; 基于所述解码器当前已解码出的N个第二氨基酸, 获取第二表征向量, 其中, 所述第二 表征向量中包括所述 N个第二氨基酸之间的相互关联信息; 对所述解码器当前输入的第 一表征向量和所述第 二表征向量进行注意力 机制, 得到第 N+1个第二氨基酸。 12.根据权利要求1 1所述的装置, 其中, 所述 解码模块, 还用于: 对所述解码器当前输入的第 一表征向量和所述第 二表征向量进行融合, 得到第 三表征 向量; 根据所述第三表征向量, 获取氨基酸词典中每 个第二氨基酸的生成概 率; 根据所述 生成概率确定所述第N+1个第二氨基酸。 13.根据权利要求12所述的装置, 其中, 所述 解码模块, 还用于: 对所述第三表征向量取平均后进行线性变换, 得到氨基酸词典大小的目标表征向量; 对所述目标表征向量进行归一化操作, 得到所述氨基酸词典中每个第 二氨基酸的生成 概率。 14.根据权利要求12所述的装置, 其中, 所述 解码模块, 还用于: 从所述氨基酸词典中, 选取所述生成概率最大的第二氨基酸作为所述第N+1个第二氨 基酸。 15.根据权利要求1 1所述的装置, 其中, 所述 解码模块, 还用于: 每当所述解码器解码出新的第 二氨基酸, 基于所述新的第 二氨基酸对所述第 二表征向 量进行更新。 16.根据权利要求10所述的装置, 其中, 所述 解码模块, 还用于: 响应于所述解码器解码到所述蛋白质序列的终止标识, 停止继续解码, 并输出所有解 码出的第二氨基酸。权 利 要 求 书 2/3 页 3 CN 115512762 A 3

PDF文档 专利 多肽序列的生成方法、装置、电子设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多肽序列的生成方法、装置、电子设备及存储介质 第 1 页 专利 多肽序列的生成方法、装置、电子设备及存储介质 第 2 页 专利 多肽序列的生成方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。