专利一种基于知识图谱辅助的多任务药物筛选方法和系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210003782.9 (22)申请日 2022.01.04 (71)申请人湖南大学地址 410082 湖南省长沙市岳麓区麓山南路1号 (72)发明人马腾飞　曾湘祥　林轩　付祥政　宋勃升　 (74)专利代理机构武汉臻诚专利代理事务所 (普通合伙) 42233 代理人宋业斌 (51)Int.Cl. G16C 20/50(2019.01) G16C 20/70(2019.01) G16B 15/30(2019.01) G06F 16/36(2019.01) (54)发明名称一种基于知识图谱辅助的多任务药物筛选方法和系统 (57)摘要本发明公开了一种基于知识图谱的多任务药物筛选方法，包括：获取所有药物和所有化合物映射到知识图谱数据集后的实体映射表、所有药物的候选药物集合、以及预训练好的多任务预测模型，获取用户输入的问题，使用获取到的多任务预测模型对问题中的靶点x和候选药物集合进行预测，以获得药物概率分数表和化合物概率分数表，使用结果集成算法对获取的药物概率分数表和化合物概率分数表进行计算合并，并将合并后的概率分数表中的概率分数按照由大到小的方式进行排序，并从排序结果中选择排名前2 0 个药物对应的实体作为筛选结果返回给用户。本发明能够解决现有基于知识图谱的预测模型无法考虑药物分子和蛋白质本身的特征的问题。权利要求书4页说明书13页附图3页 CN 114420221 A 2022.04.29 CN 114420221 A 1.一种基于知识图谱的多任务药物筛选方法，其特征在于，包括以下步骤： (1)获取所有药物和所有化合物映射到知识图谱数据集后的实体映射表、所有药物的候选药物集合、以及预训练好的多任务预测模型。 (2)获取用户输入的问题，使用步骤(1)中获取到的多任务预测模型对问题中的靶点x 和候选药物集合进行预测，以获得药物概率分数表和化合物概率分数表。 (3)使用结果集成算法对步骤(2)中获取的药物概率分数表和化合物概率分数表进行计算合并，并将合并后的概率分数表中的概率分数按照由大到小的方式进行排序，并从排序结果中选择排名前20个药物对应的实体作为筛选结果返回给用户。 2.根据权利要求1所述的基于知识图谱的多任务药物筛选方法，其特征在于，步骤(1) 中的多任务预测模型包括图神经网络GCN、关系图卷积神经网络RGCN、共享单元、药物靶点相互作用DTI分类器、以及化合物蛋白质相互作用CPI分类器。 3.根据权利要求1或2所述的基于知识图谱的多任务药物筛选方法，其特征在于，多任务预测模型是通过以下步骤训练得到的： (1‑1)获取知识图谱数据集、 DTI数据集、以及CPI数据集，将DTI数据集和CPI数据集中的所有药物与所有靶点映射到知识图谱数据集中，以得到实体映射表和候选药物集合，并将DTI数据集划分为DTI训练集、 DTI验证集和DTI测试集，将CPI数据集划分为CPI训练集、 CPI验证集和CPI测试集，其中实体映射表中的每个数据D 是由药物d与其对应的实体ea组成 (d,ea)；候选药物集合中每一个数据包括每一个药物相对应的实体M和每一个药物相对应的化合物分子图C；知识图谱数据集中的每个数据G是三元组(ehead,r,etail)，其包括头实体 ehead、关系r以及尾实体etail，实体映射表中所有数据对应的所有实体构成集合E，知识图谱数据集中所有数据对应的所有关系r构成关系集合R； (1‑2)将步骤(1 ‑1)得到的实体集合E和关系集合R进行随机初始化，以获得每一个实体的表示和每一个关系的表示； (1‑3)针对步骤(1 ‑1)中获取的CPI训练集而言，获取其中所有化合物的简化分子线性输入规范SMILES字符串集合、以及蛋白质序列，并为蛋白质序列建立蛋白质语料库；同时，根据步骤(1 ‑2)中获取的实体的进一步表示，获取DTI训练集中单个药物对应的实体的表示 ed、以及单个靶点对应的实体的表示et； (1‑4)使用化学信息学开源工具包RDKit将步骤(1 ‑3)得到的SMILES字符串集合转化为化合物分子图集合，并使用GCN获取化合物分子图集合中每个化合物分子图的表示； (1‑5)分别将步骤(1 ‑3)中获取的DTI训练集中所有药物对应实体的表示和步骤(1 ‑4) 中获取到的CPI训练集中所有化合物分子图的表示通过共享单元进行融合，以分别获得DTI 训练集中所有药物对应的实体的进一步表示、以及CPI训练集中所有化合物分子图的进一步表示； (1‑6)使用分词工具对步骤(1 ‑3)建立的蛋白质语料库进行分词处理，并使用Word2Vec 算法对分词处理后的蛋白质语料库进行处理，以得到蛋白质语料库中所有词的初始化表示，将蛋白质语料库中所有词的初始化表示进行组合，以得到CPI训练集中所有蛋白质序列的表示，将步骤(1 ‑5)获取的每一个化合物分子图的进一步表示e ′g和每一个蛋白质序列的表示es进行组合后，输入到CPI分类器中，以获得每一个化合物分子图和每一个蛋白质序列之间发生相互作用的概率分数；权　利　要　求　书 1/4 页 2 CN 114420221 A 2(1‑7)将步骤(1 ‑5)中获取的每一个药物对应的实体的进一步表示e ′d和步骤(1 ‑3)中获取的每一个靶点对应的实体的表示et组合输入到DTI分类器中，以获取每一个药物对应的实体和每一个靶点对应的实体之间发生相互作用的概率分数 (1‑8)根据步骤(1‑6)中获取的相互作用的概率分数和步骤(1 ‑7)得到的相互作用的概率分数，分别为CPI训练集和DTI训练集构建损失优化函数； (1‑9)根据步骤(1 ‑8)获取到的CPI训练集和DTI训练集在损失优化函数上的损失函数值，采用随机梯度下降方法同时对CPI训练集和DTI训练集的损失优化函数进行优化，从而得到训练好的多任务预测模型。 4.根据权利要求3所述的基于知识图谱的多任务药物筛选方法，其特征在于，步骤(1‑2)中每一个实体的表示具体为：其中为实体映射表中第i个实体在第l层RGCN网络中的表示，也就是实体映射表中第i个实体的进一步表示； c为常数，其设置为2；为第l层RGCN网络中关系r的可学习参数向量，其中r属于关系集合R中的一种；为RGCN网络第l层第i个实体的表示的非线性激活函数处理；步骤(1‑4)中，获取单个化合物分子图的表示eg的方式具体为：其中|V|为当前化合物分子图中原子节点的数量， σ(f(vi))为化合物分子图中的第i个原子节点vi经过非线性激活函数处理的图神经网络的输出。步骤(1‑5)中，每一对药物对应的实体的表示和化合物分子图的表示(ed,eg)为：其中为共享单元中可学习的参数， e′d和e′g分别为共享单元输出的药物相对应实体的进一步表示和化合物分子图的进一步表示。 5.根据权利要求3所述的基于知识图谱的多任务药物筛选方法，其特征在于，对于每一个化合物分子图的进一步表示和蛋白质序列的表示(e ′g， es)而言，通过CP I分类器获得每一个蛋白质序列和每一个化合物分子图之间发生相互作用的概率分数为：其中为当前化合物分子图和当前蛋白质序列之间发生相互作用的概率分数，权　利　要　求　书 2/4 页 3 CN 114420221 A 3

专利 一种基于知识图谱辅助的多任务药物筛选方法和系统

专利一种基于知识图谱辅助的多任务药物筛选方法和系统