全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210003782.9 (22)申请日 2022.01.04 (71)申请人 湖南大学 地址 410082 湖南省长 沙市岳麓区麓山 南 路1号 (72)发明人 马腾飞 曾湘祥 林轩 付祥政  宋勃升  (74)专利代理 机构 武汉臻诚专利代理事务所 (普通合伙) 42233 代理人 宋业斌 (51)Int.Cl. G16C 20/50(2019.01) G16C 20/70(2019.01) G16B 15/30(2019.01) G06F 16/36(2019.01) (54)发明名称 一种基于知识图谱辅助的多任务药物筛选 方法和系统 (57)摘要 本发明公开了一种基于知识图谱的多任务 药物筛选方法, 包括: 获取所有药物和所有化合 物映射到知识图谱数据集后的实体映射表、 所有 药物的候选药物集合、 以及预训练好的多任务预 测模型, 获取用户输入的问题, 使用获取到的多 任务预测模 型对问题中的靶点x和候选药物集合 进行预测, 以获得药物概率分数表和化合物概率 分数表, 使用结果集成算法对获取的药物概率分 数表和化合物 概率分数表进行计算合并, 并将合 并后的概率分数表中的概率分数按照由大到小 的方式进行排序, 并从排序结果中选择排名前2 0 个药物对应的实体作为筛选结果返回给用户。 本 发明能够解决现有基于知识 图谱的预测模型无 法考虑药物分子和蛋白质本身的特 征的问题。 权利要求书4页 说明书13页 附图3页 CN 114420221 A 2022.04.29 CN 114420221 A 1.一种基于知识图谱的多任务药物筛 选方法, 其特 征在于, 包括以下步骤: (1)获取所有药物和所有化合物映射到知识图谱数据集后的实体映射表、 所有药物 的 候选药物集 合、 以及预训练好的多任务预测模型。 (2)获取用户输入的问题, 使用步骤(1)中获取到的多任务预测模型对问题中的靶点x 和候选药物集 合进行预测, 以获得 药物概率分数表和化 合物概率分数表。 (3)使用结果集成算法对步骤(2)中获取的药物概率分数表和化合物概率分数表进行 计算合并, 并将合并后的概率分数表中的概率分数按照由大到小的方式进行排序, 并从排 序结果中选择排名前20个药物对应的实体作为筛 选结果返回给用户。 2.根据权利要求1所述的基于知识图谱的多任务药物筛选方法, 其特征在于, 步骤(1) 中的多任务预测模型包括图神经网络GCN、 关系图卷积神经网络RGCN、 共享单元、 药物靶点 相互作用DTI分类 器、 以及化 合物蛋白质相互作用CPI分类 器。 3.根据权利要求1或2所述的基于知识图谱的多任务药物筛选方法, 其特征在于, 多任 务预测模型 是通过以下步骤训练得到的: (1‑1)获取知识图谱数据集、 DTI数据集、 以及CPI数据集, 将DTI数据集和CPI数据集中 的所有药物与所有靶点映射到知识图谱数据集中, 以得到实体映射表和 候选药物集合, 并 将DTI数据集划分为DTI训练集、 DTI验证集和DTI测试集, 将CPI数据集划分为CPI训练集、 CPI验证集和CPI测试集, 其中实体映射表中的每个数据D 是由药物d与其对应的实体ea组成 (d,ea); 候选药物集合中每一个数据包括每一个药物相对应的实体M和每一个药物相对应 的化合物分子图C; 知识图谱数据 集中的每个数据G是三元组(ehead,r,etail), 其包括头实体 ehead、 关系r以及尾实体etail, 实体映射表中所有数据对应的所有实体构成集合E, 知识图谱 数据集中所有数据对应的所有关系r构成关系集 合R; (1‑2)将步骤(1 ‑1)得到的实体集合E和关系集合R进行随机初始化, 以获得每一个实体 的表示和每一个关系的表示; (1‑3)针对步骤(1 ‑1)中获取的CPI训练集而言, 获取其中所有化合物的简化分子线性 输入规范SMILES字符串集合、 以及蛋白质序列, 并为蛋白质序列建立蛋白质语料库; 同时, 根据步骤(1 ‑2)中获取的实体的进一步表 示, 获取DTI训练集中单个药物对应的实体的表 示 ed、 以及单个靶点对应的实体的表示et; (1‑4)使用化学信息学开源工具包RDKit将步骤(1 ‑3)得到的SMILES字符串集合转化为 化合物分子图集 合, 并使用GCN获取化 合物分子图集 合中每个化合物分子图的表示; (1‑5)分别将步骤(1 ‑3)中获取的DTI训练集中所有药物对应实体 的表示和步骤(1 ‑4) 中获取到的CPI训练集中所有化合物分子图的表示通过共享单元进 行融合, 以分别获得DTI 训练集中所有药物对应的实体的进一步表示、 以及CPI训练集中所有化合物分子图的进一 步表示; (1‑6)使用分词工具对步骤(1 ‑3)建立的蛋白质语料库进行分词处理, 并使用Word2Vec 算法对分词处理后的蛋白质 语料库进行处理, 以得到蛋白质 语料库中所有词的初始化表 示, 将蛋白质语料库中所有词的初始 化表示进 行组合, 以得到CPI训练集中所有蛋白质序列 的表示, 将步骤(1 ‑5)获取的每一个化合物分子图的进一步表示e ′g和每一个蛋白质序列的 表示es进行组合后, 输入到CPI分类器中, 以获得每一个化合物分子图和每一个蛋白质序列 之间发生相互作用的概 率分数;权 利 要 求 书 1/4 页 2 CN 114420221 A 2(1‑7)将步骤(1 ‑5)中获取的每一个 药物对应的实体的进一步表示e ′d和步骤(1 ‑3)中获 取的每一个靶点对应的实体 的表示et组合输入到DTI分类器中, 以获取每一个药物对应 的 实体和每一个靶点对应的实体之间发生相互作用的概 率分数 (1‑8)根据步骤(1‑6)中获取的相互作用的概率分数和步骤(1 ‑7)得到的相互作用的概 率分数, 分别为CPI训练集和DTI训练集构建损失优化 函数; (1‑9)根据步骤(1 ‑8)获取到的CPI训练集和DTI训练集在损失优化函数上的损失函数 值, 采用随机梯度下降方法同时对CPI训练集和DTI训练集的损失优化函数进行优化, 从而 得到训练好的多任务预测模型。 4.根据权利要求3所述的基于知识图谱的多任务药物筛 选方法, 其特 征在于, 步骤(1‑2)中每一个实体的表示具体为: 其中 为实体映射表中第i个实体在第l层RGCN网络中的表示, 也就是实体映射表中 第i个实体 的进一步表示; c为常数, 其设置为2; 为第l层RGCN网络中关系r的可学习参 数向量, 其中r属于关系集合R中的一种; 为RGCN网络第l层第i个实体的 表示的非线性激活函数处 理; 步骤(1‑4)中, 获取 单个化合物分子图的表示eg的方式具体为: 其中|V|为当前化合物分子图中原子节点的数量, σ(f(vi))为化合物分子图中的第i个 原子节点vi经过非线性激活函数处 理的图神经网络的输出。 步骤(1‑5)中, 每一对药物对应的实体的表示和化 合物分子图的表示(ed,eg)为: 其中 为共享单元中可学习的参 数, e′d和e′g分别为共享 单元输 出的药物相对应实体的进一 步表示和化 合物分子图的进一 步表示。 5.根据权利要求3所述的基于知识图谱的多任务药物筛 选方法, 其特 征在于, 对于每一个化合物分子图的进一步表示和蛋白质序列的表示(e ′g, es)而言, 通过CP I分 类器获得每一个蛋白质序列和每一个化 合物分子图之间发生相互作用的概 率分数为: 其中 为当前化合物分子图和当前蛋白质序列之间发生相互作用的概率分数,权 利 要 求 书 2/4 页 3 CN 114420221 A 3

.PDF文档 专利 一种基于知识图谱辅助的多任务药物筛选方法和系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱辅助的多任务药物筛选方法和系统 第 1 页 专利 一种基于知识图谱辅助的多任务药物筛选方法和系统 第 2 页 专利 一种基于知识图谱辅助的多任务药物筛选方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。