(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210699090.2
(22)申请日 2022.06.20
(71)申请人 中国科学院计算机网络信息中心
地址 100083 北京市海淀区东升南路2号院
(72)发明人 辛之夼 王怡宁 李非 王彦棡
王珏 刘芳
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
专利代理师 陈霁
(51)Int.Cl.
G06N 5/04(2006.01)
G16B 15/20(2019.01)
G06F 16/2455(2019.01)
(54)发明名称
一种基于分布式技术的蛋白质结构推理方
法
(57)摘要
本发明涉及一种基于分布式技术的蛋白质
结构推理方法, 方法包括: 获取蛋白质结构推理
所需要的数据集; 在AlphaFold2的Data
Pipeline模 块中, 使用分布式计算流对所述数据
集进行并行搜索, 得到多序列比对MSA表征和模
板表征; 在AlphaFold2的Evoformer模块和
Structure Module模块中, 以所述MSA表征和模
板表征作为输入, 使用并行计算对至少两组不同
配置的模型并行迭代学习, 生成蛋白质三维结
构, 在最终生成的模型中选择置信度最高的模型
作为输出模型; 使用Amber relaxation对所述蛋
白质三维结构进行弛豫操作, 得到最终稳定的蛋
白质三维结构, 其中, 使用GP U版本的openMM对所
述Amber relaxati on进行计算。
权利要求书1页 说明书3页 附图2页
CN 115034393 A
2022.09.09
CN 115034393 A
1.一种基于分布式技 术的蛋白质结构推理方法, 其特 征在于, 所述方法包括:
获取蛋白质结构推理所需要的数据集;
在AlphaFold2的Data Pipeline模块中, 使用分布式计算流对所述数据集进行并行搜
索, 得到多序列比对MSA 表征和模板表征;
在AlphaFold2的Evoformer模块和Structure Module模块中, 以所述MSA表征和模板表
征作为输入, 使用并行计算对至少 两组不同配置的模型并行迭代学习, 生成蛋白质三维结
构, 在最终生成的模型中选择置信度最高的模型作为输出模型;
使用Amber relaxation对所述蛋白质三维结构进行弛豫操作, 得到最终稳定的蛋白质
三维结构, 其中, 使用GPU版本的openM M对所述Amber relaxati on进行计算。
2.根据权利要求1所述的方法, 其特征在于, 所述使用分布式计算流对输入的蛋白质结
构数据进行并行搜索的方法, 还 包括:
使用三个进程进行并行搜索, 其中,
第一进程使用H HBlits软件对BFD及Un iclust30数据集进行搜索, 得到第一搜索结果;
第二进程使用JackH MMER软件对MGnify数据集进行比对搜索, 得到第二搜索结果;
第三进程首先使用JackHMMER软件对UniRef90数据集进行MSA检索, 得到第三搜索结
果, 然后使用HHSearch软件对 所述第三搜索结果基于PDB70数据库进行模版匹配, 得到模板
表征;
将所述第一搜索结果、 第二搜索结果和第三搜索结果进行组合, 得到 MSA表征。
3.根据权利要求1所述的方法, 其特征在于, 所述并行搜索与所述并行计算, 均使用分
布式框架Ray进行 管理。
4.根据权利要求1所述的方法, 其特 征在于, 所述 不同配置的模型的数量 为五组。权 利 要 求 书 1/1 页
2
CN 115034393 A
2一种基于分布式技术的蛋白质结构推 理方法
技术领域
[0001]本发明涉及人工智能领域, 尤其涉及一种基于分布式技术的蛋白质结构推理方
法。
背景技术
[0002]2020年, DeepMind在A lphaFold基础上再出新版本AlphaFold2, 并在当年CASP14比
赛中取得了平均GDT分数为91.1、 中位数GDT92.4的蛋白质结构预测成绩, 这意味着
AlphaFold2可将预测均方根误差降低到大约1.6A, 相当于一个原子宽度误差, 实现了原子
级精度的蛋白质结构预测。
[0003]AlphaFold2采用一个基于注意力的神经网络系统处理氨基酸序列内部关系和外
部关系, 并用端到端的方式进 行训练, 以理解图结构, 同时基于其构建的隐式图的方式来执
行推理。
[0004]AlphaFold2整个算法包含DataPipeline, Evoformer以及Structure module三个
部分。 AlphaFold2在 进行蛋白质结构推理 时, 模型输入氨基酸序列, 输出三维结构坐标实现
端到端结构预测。
[0005]其中, Data pipeline是整个推理流程的第一个模块, 主要负责对输入氨基酸序列
进行同源序列搜索(Genetic search)以及模版搜索(Template search), 生成输入序列的
多序列比对表征(MSA representation)以及模版表征(Template represention)。 上述两
种搜索操作皆通过借助第三方序列搜索软件完成。 Genetic search使用JackHMMER对
MGnify和U niRef90数据库进行搜索, 此外还通过HHblits对BFD、 U niclust30 数据库搜索, 得
到输入序列的同源序列, 构造MSA representation。 Template search使用HHsearch对
genetic search得到的Uniref90 MSA在PDB70结构数据库 上进行搜索, 得到对应的结构模
版, 即Template representati on。
[0006]模型第二部分Evoformer由48个神经网络块(block)组成, 是一个类似
Transformer的变体结构, 它创新性的引入了轴向注 意力机制、 三角更新法则以及三角注 意
力机制来学习Data pipeline生成的表征信息并不断更新表征矩阵。
[0007]模型最后一部分Structure module借助了不动点注意力机制, 通过对Evoformer
生成的对表征信息的关系学习, 不断更新序列表征信息(Single repr.), 将更新过的序列
表征映射到主链上, 通过欧几里得变换更新坐标信息, 再通过计算主链以及侧链扭转角 信
息, 最终更新得到预测的全原子坐标, 得到初步的三维结构。 在Structure module之后, 模
型加入了Amber relaxation机制, 使用openMM软件施加力场对生成蛋白质结构进行弛豫操
作, 去除结构上的违规部分以及碎片支 链, 得到最终稳定的蛋白质三维结构。
[0008]然而, Alp haFold2的多个模块在运行过程中, 普遍存在 速度较慢的问题, 影响总体
的蛋白质结构预测效率。说 明 书 1/3 页
3
CN 115034393 A
3
专利 一种基于分布式技术的蛋白质结构推理方法
安全报告 >
其他 >
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:09:41上传分享