(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210699090.2 (22)申请日 2022.06.20 (71)申请人 中国科学院计算机网络信息中心 地址 100083 北京市海淀区东升南路2号院 (72)发明人 辛之夼 王怡宁 李非 王彦棡  王珏 刘芳  (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 专利代理师 陈霁 (51)Int.Cl. G06N 5/04(2006.01) G16B 15/20(2019.01) G06F 16/2455(2019.01) (54)发明名称 一种基于分布式技术的蛋白质结构推理方 法 (57)摘要 本发明涉及一种基于分布式技术的蛋白质 结构推理方法, 方法包括: 获取蛋白质结构推理 所需要的数据集; 在AlphaFold2的Data   Pipeline模 块中, 使用分布式计算流对所述数据 集进行并行搜索, 得到多序列比对MSA表征和模 板表征; 在AlphaFold2的Evoformer模块和 Structure  Module模块中, 以所述MSA表征和模 板表征作为输入, 使用并行计算对至少两组不同 配置的模型并行迭代学习, 生成蛋白质三维结 构, 在最终生成的模型中选择置信度最高的模型 作为输出模型; 使用Amber  relaxation对所述蛋 白质三维结构进行弛豫操作, 得到最终稳定的蛋 白质三维结构, 其中, 使用GP U版本的openMM对所 述Amber relaxati on进行计算。 权利要求书1页 说明书3页 附图2页 CN 115034393 A 2022.09.09 CN 115034393 A 1.一种基于分布式技 术的蛋白质结构推理方法, 其特 征在于, 所述方法包括: 获取蛋白质结构推理所需要的数据集; 在AlphaFold2的Data  Pipeline模块中, 使用分布式计算流对所述数据集进行并行搜 索, 得到多序列比对MSA 表征和模板表征; 在AlphaFold2的Evoformer模块和Structure  Module模块中, 以所述MSA表征和模板表 征作为输入, 使用并行计算对至少 两组不同配置的模型并行迭代学习, 生成蛋白质三维结 构, 在最终生成的模型中选择置信度最高的模型作为输出模型; 使用Amber  relaxation对所述蛋白质三维结构进行弛豫操作, 得到最终稳定的蛋白质 三维结构, 其中, 使用GPU版本的openM M对所述Amber  relaxati on进行计算。 2.根据权利要求1所述的方法, 其特征在于, 所述使用分布式计算流对输入的蛋白质结 构数据进行并行搜索的方法, 还 包括: 使用三个进程进行并行搜索, 其中, 第一进程使用H HBlits软件对BFD及Un iclust30数据集进行搜索, 得到第一搜索结果; 第二进程使用JackH MMER软件对MGnify数据集进行比对搜索, 得到第二搜索结果; 第三进程首先使用JackHMMER软件对UniRef90数据集进行MSA检索, 得到第三搜索结 果, 然后使用HHSearch软件对 所述第三搜索结果基于PDB70数据库进行模版匹配, 得到模板 表征; 将所述第一搜索结果、 第二搜索结果和第三搜索结果进行组合, 得到 MSA表征。 3.根据权利要求1所述的方法, 其特征在于, 所述并行搜索与所述并行计算, 均使用分 布式框架Ray进行 管理。 4.根据权利要求1所述的方法, 其特 征在于, 所述 不同配置的模型的数量 为五组。权 利 要 求 书 1/1 页 2 CN 115034393 A 2一种基于分布式技术的蛋白质结构推 理方法 技术领域 [0001]本发明涉及人工智能领域, 尤其涉及一种基于分布式技术的蛋白质结构推理方 法。 背景技术 [0002]2020年, DeepMind在A lphaFold基础上再出新版本AlphaFold2, 并在当年CASP14比 赛中取得了平均GDT分数为91.1、 中位数GDT92.4的蛋白质结构预测成绩, 这意味着 AlphaFold2可将预测均方根误差降低到大约1.6A, 相当于一个原子宽度误差, 实现了原子 级精度的蛋白质结构预测。 [0003]AlphaFold2采用一个基于注意力的神经网络系统处理氨基酸序列内部关系和外 部关系, 并用端到端的方式进 行训练, 以理解图结构, 同时基于其构建的隐式图的方式来执 行推理。 [0004]AlphaFold2整个算法包含DataPipeline, Evoformer以及Structure  module三个 部分。 AlphaFold2在 进行蛋白质结构推理 时, 模型输入氨基酸序列, 输出三维结构坐标实现 端到端结构预测。 [0005]其中, Data  pipeline是整个推理流程的第一个模块, 主要负责对输入氨基酸序列 进行同源序列搜索(Genetic  search)以及模版搜索(Template  search), 生成输入序列的 多序列比对表征(MSA  representation)以及模版表征(Template  represention)。 上述两 种搜索操作皆通过借助第三方序列搜索软件完成。 Genetic  search使用JackHMMER对 MGnify和U niRef90数据库进行搜索, 此外还通过HHblits对BFD、 U niclust30 数据库搜索, 得 到输入序列的同源序列, 构造MSA  representation。 Template  search使用HHsearch对 genetic search得到的Uniref90  MSA在PDB70结构数据库 上进行搜索, 得到对应的结构模 版, 即Template  representati on。 [0006]模型第二部分Evoformer由48个神经网络块(block)组成, 是一个类似 Transformer的变体结构, 它创新性的引入了轴向注 意力机制、 三角更新法则以及三角注 意 力机制来学习Data  pipeline生成的表征信息并不断更新表征矩阵。 [0007]模型最后一部分Structure  module借助了不动点注意力机制, 通过对Evoformer 生成的对表征信息的关系学习, 不断更新序列表征信息(Single  repr.), 将更新过的序列 表征映射到主链上, 通过欧几里得变换更新坐标信息, 再通过计算主链以及侧链扭转角 信 息, 最终更新得到预测的全原子坐标, 得到初步的三维结构。 在Structure  module之后, 模 型加入了Amber  relaxation机制, 使用openMM软件施加力场对生成蛋白质结构进行弛豫操 作, 去除结构上的违规部分以及碎片支 链, 得到最终稳定的蛋白质三维结构。 [0008]然而, Alp haFold2的多个模块在运行过程中, 普遍存在 速度较慢的问题, 影响总体 的蛋白质结构预测效率。说 明 书 1/3 页 3 CN 115034393 A 3

.PDF文档 专利 一种基于分布式技术的蛋白质结构推理方法

安全报告 > 其他 > 文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分布式技术的蛋白质结构推理方法 第 1 页 专利 一种基于分布式技术的蛋白质结构推理方法 第 2 页 专利 一种基于分布式技术的蛋白质结构推理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 00:09:41上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。