专利 一种基于分布式技术的蛋白质结构推理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210699090.2 (22)申请日 2022.06.20 (71)申请人中国科学院计算机网络信息中心地址 100083 北京市海淀区东升南路2号院 (72)发明人辛之夼　王怡宁　李非　王彦棡　王珏　刘芳　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 专利代理师陈霁 (51)Int.Cl. G06N 5/04(2006.01) G16B 15/20(2019.01) G06F 16/2455(2019.01) (54)发明名称一种基于分布式技术的蛋白质结构推理方法 (57)摘要本发明涉及一种基于分布式技术的蛋白质结构推理方法，方法包括：获取蛋白质结构推理所需要的数据集；在AlphaFold2的Data Pipeline模块中，使用分布式计算流对所述数据集进行并行搜索，得到多序列比对MSA表征和模板表征；在AlphaFold2的Evoformer模块和 Structure Module模块中，以所述MSA表征和模板表征作为输入，使用并行计算对至少两组不同配置的模型并行迭代学习，生成蛋白质三维结构，在最终生成的模型中选择置信度最高的模型作为输出模型；使用Amber relaxation对所述蛋白质三维结构进行弛豫操作，得到最终稳定的蛋白质三维结构，其中，使用GP U版本的openMM对所述Amber relaxati on进行计算。权利要求书1页说明书3页附图2页 CN 115034393 A 2022.09.09 CN 115034393 A 1.一种基于分布式技术的蛋白质结构推理方法，其特征在于，所述方法包括：获取蛋白质结构推理所需要的数据集；在AlphaFold2的Data Pipeline模块中，使用分布式计算流对所述数据集进行并行搜索，得到多序列比对MSA 表征和模板表征；在AlphaFold2的Evoformer模块和Structure Module模块中，以所述MSA表征和模板表征作为输入，使用并行计算对至少两组不同配置的模型并行迭代学习，生成蛋白质三维结构，在最终生成的模型中选择置信度最高的模型作为输出模型；使用Amber relaxation对所述蛋白质三维结构进行弛豫操作，得到最终稳定的蛋白质三维结构，其中，使用GPU版本的openM M对所述Amber relaxati on进行计算。 2.根据权利要求1所述的方法，其特征在于，所述使用分布式计算流对输入的蛋白质结构数据进行并行搜索的方法，还包括：使用三个进程进行并行搜索，其中，第一进程使用H HBlits软件对BFD及Un iclust30数据集进行搜索，得到第一搜索结果；第二进程使用JackH MMER软件对MGnify数据集进行比对搜索，得到第二搜索结果；第三进程首先使用JackHMMER软件对UniRef90数据集进行MSA检索，得到第三搜索结果，然后使用HHSearch软件对所述第三搜索结果基于PDB70数据库进行模版匹配，得到模板表征；将所述第一搜索结果、第二搜索结果和第三搜索结果进行组合，得到 MSA表征。 3.根据权利要求1所述的方法，其特征在于，所述并行搜索与所述并行计算，均使用分布式框架Ray进行管理。 4.根据权利要求1所述的方法，其特征在于，所述不同配置的模型的数量为五组。权　利　要　求　书 1/1 页 2 CN 115034393 A 2一种基于分布式技术的蛋白质结构推理方法技术领域 [0001]本发明涉及人工智能领域，尤其涉及一种基于分布式技术的蛋白质结构推理方法。背景技术 [0002]2020年， DeepMind在A lphaFold基础上再出新版本AlphaFold2，并在当年CASP14比赛中取得了平均GDT分数为91.1、中位数GDT92.4的蛋白质结构预测成绩，这意味着 AlphaFold2可将预测均方根误差降低到大约1.6A，相当于一个原子宽度误差，实现了原子级精度的蛋白质结构预测。 [0003]AlphaFold2采用一个基于注意力的神经网络系统处理氨基酸序列内部关系和外部关系，并用端到端的方式进行训练，以理解图结构，同时基于其构建的隐式图的方式来执行推理。 [0004]AlphaFold2整个算法包含DataPipeline， Evoformer以及Structure module三个部分。 AlphaFold2在进行蛋白质结构推理时，模型输入氨基酸序列，输出三维结构坐标实现端到端结构预测。 [0005]其中， Data pipeline是整个推理流程的第一个模块，主要负责对输入氨基酸序列进行同源序列搜索(Genetic search)以及模版搜索(Template search)，生成输入序列的多序列比对表征(MSA representation)以及模版表征(Template represention)。上述两种搜索操作皆通过借助第三方序列搜索软件完成。 Genetic search使用JackHMMER对 MGnify和U niRef90数据库进行搜索，此外还通过HHblits对BFD、 U niclust30 数据库搜索，得到输入序列的同源序列，构造MSA representation。 Template search使用HHsearch对 genetic search得到的Uniref90 MSA在PDB70结构数据库上进行搜索，得到对应的结构模版，即Template representati on。 [0006]模型第二部分Evoformer由48个神经网络块(block)组成，是一个类似 Transformer的变体结构，它创新性的引入了轴向注意力机制、三角更新法则以及三角注意力机制来学习Data pipeline生成的表征信息并不断更新表征矩阵。 [0007]模型最后一部分Structure module借助了不动点注意力机制，通过对Evoformer 生成的对表征信息的关系学习，不断更新序列表征信息(Single repr.)，将更新过的序列表征映射到主链上，通过欧几里得变换更新坐标信息，再通过计算主链以及侧链扭转角信息，最终更新得到预测的全原子坐标，得到初步的三维结构。在Structure module之后，模型加入了Amber relaxation机制，使用openMM软件施加力场对生成蛋白质结构进行弛豫操作，去除结构上的违规部分以及碎片支链，得到最终稳定的蛋白质三维结构。 [0008]然而， Alp haFold2的多个模块在运行过程中，普遍存在速度较慢的问题，影响总体的蛋白质结构预测效率。说　明　书 1/3 页 3 CN 115034393 A 3

专利 一种基于分布式技术的蛋白质结构推理方法

专利一种基于分布式技术的蛋白质结构推理方法