全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210926041.8 (22)申请日 2022.08.03 (65)同一申请的已公布的文献号 申请公布号 CN 114969386 A (43)申请公布日 2022.08.30 (73)专利权人 神州医疗科技股份有限公司 地址 100080 北京市海淀区北四环西路6 6 号16层1901室 (72)发明人 刘硕 杨雅婷 宋佳祥 朱宁  白焜太 许娟 史文钊  (74)专利代理 机构 北京星通盈泰知识产权代理 有限公司 1 1952 专利代理师 夏晶 (51)Int.Cl. G06F 16/36(2019.01)G06N 3/04(2006.01) G06F 16/31(2019.01) G06F 40/289(2020.01) G06F 40/295(2020.01) G16H 50/20(2018.01) 审查员 孙娟 (54)发明名称 应用于医学领域的消歧方法、 装置、 电子设 备和介质 (57)摘要 本公开的实施例公开了应用 于医学领域的 消歧方法、 装置、 电子设备和介质, 涉及医疗知识 图谱构建技术领域。 该方法的一具体实施方式包 括: 获取医学知识图谱和待消歧数据; 基于上述 医学知识图谱, 对上述待消歧数据进行消歧处 理, 得到新的医学知识图谱; 将上述新的医学知 识图谱存储至目标医学信息平台的数据库。 该实 施方式实现了对待消歧数据的有效消歧, 为医学 知识图谱的更新、 构建提供了 重要帮助。 权利要求书4页 说明书8页 附图3页 CN 114969386 B 2022.11.18 CN 114969386 B 1.一种应用于医学 领域的消歧方法, 包括: 获取医学知识图谱和待消歧数据; 基于所述医学知识图谱, 对所述待消歧数据进行消歧处 理, 得到新的医学知识图谱; 将所述新的医学知识图谱 存储至目标医学信息平台的数据库; 所述基于所述医学知识图谱, 对所述待消歧数据进行消歧处理, 得到新的医学知识图 谱, 包括: 将所述医学知识图谱和所述待消歧数据输入至预先训练 的实体消歧模型, 输出所述待 消歧数据向所述医学知识图谱内的实体的映射结果; 基于所述映射结果, 生成新的医学知识图谱; 所述实体消歧模型是将训练样本 中的样本知识图谱和样本待消歧数据作为输入, 将所 述训练样本中的样本新医学知识图谱作为期望 输出, 训练得到的; 所述实体消 歧模型的训练样本是基于所述样本知识图谱包含的数据与所述样本待消 歧数据两两组合生成的, 所述两两组合指的是标注数据中原始数据和知识图谱内部标注为 对应上的数据组合在一起作为正样本, 原始数据和知识图谱内未标注对应上的数据随机选 取5个作为负 样本; 实体消歧模型的训练包括以下步骤: 将所述样本知识图谱和所述样本待消歧数据输入至初始模型的嵌入层, 生成输入向量 矩阵; 将所述输入向量矩阵输入至所述初始模型的多头注意力 机制层, 生成带有注意力信 息 的输入向量矩阵; 将所述带有注意力信 息的输入向量矩阵输入至所述初始模型的前向计算层, 输出经过 激活的输入向量矩阵; 将所述经过激活 的输入向量矩阵输入至所述初始模型的平均池化层, 得到所述样本知 识图谱的语句向量、 所述样本待消歧数据的语句向量和用于表征语句关系的关系向量; 将所述样本知识图谱的语句向量、 所述样本待消歧数据的语句向量和所述关系向量进 行拼接, 得到拼接向量; 将所述拼接向量输入至所述初始模型的线性层网络, 得到 输出结果; 对所述输出结果进行归一化, 得到用于表征所述样本知识图谱的语句向量和所述样本 待消歧数据的语句向量之间相似度的分数; 响应于确定所述分数大于或等于预设阈值, 将所述样本待消歧数据填补至所述样本知 识图谱, 输出新的样本医学知识图谱; 基于所述样本新医学知识图谱和所述 新的样本医学知识图谱, 确定训练是否 完成; 响应于确定所述初始模型训练完成, 将所述初始模型确定为所述实体消歧模型; 所述实体消歧模型至少包括: 嵌入层、 多头注意力机制层、 前向计算层、 平均池化层、 线 性层网络和半监督机制网络; 其中, 所述多头注意力机制层中包括三个用于进行矩阵特征 提取的线性层; 所述前向计算层中包括两个线性层和激活层; 生成所述医学知识图谱内的至少一个实体的表示向量, 得到表示向量 集合; 将所述表示向量 集合存储至目标文件; 将所述待消歧数据输入至所述实体消歧模型中的嵌入层, 得到所述待消歧数据的表示 向量;权 利 要 求 书 1/4 页 2 CN 114969386 B 2加载所述目标文件, 得到所述医学知识图谱内的实体的表示向量矩阵; 对于所述待消歧数据的表示向量和所述表示向量矩阵进行矩阵计算, 得到计算结果; 对所述计算结果进行归一化处理, 得到用于表征所述待消歧数据与 所述医学知识图谱 内的实体的相似度分数; 响应于确定所述相似度分数超过预设分数阈值, 输出所述待消歧数据向所述医学知识 图谱内的实体的映射结果; 将医学知识图谱内容的实体数据利用已训练好的模型表示成为512维度的表示向量, 将医学知识图谱内所有实体数据的512维度的表示向量存储于JSON文件中, JSON文件内存 储的向量维度为[k, 512], 其中k表征医学知识图谱内实体的数量, 512 表征向量维度; 在新一次的待消歧数据的消歧过程中, 只需要将待消歧数据经过初始模型的嵌入层得 到一个n维的表示向量a, 之后再加载之前已经保存的JSON文件, 获取到医学知识图谱内部 的所有实体数据的向量矩阵b, 之后用待消歧数据对应的表示向量a与向量矩阵b进行矩阵 计算, 计算公式为: 得到 取值范围为[ ‑1, 1], 之后经过归一化转化为(0,1)区间的值, 归一化公式 为: 其中, d表征待消歧数据与医学知识图谱内实体数据的相似度, 最后, 选择相似度超过 预设阈值的待消歧数据与医学知识图谱内的映射实体数据作为结果。 2.根据权利要求1所述的应用于 医学领域的消歧方法, 其特征在于, 所述响应于确定所 述分数大于或等于预设阈值, 将所述样本待消歧数据填补至所述样本医学知识图谱, 输出 新的样本医学知识图谱之后, 所述方法还 包括: 响应于确定所述分数小于所述预设阈值, 将所述样本待消歧数据传输以及显示至审核 页面; 接收针对所述审核页面输入的审核结果; 基于所述审核结果, 确定是否将所述样本待消歧数据填补至所述样本医学知识图谱。 3.根据权利要求1所述的应用于医学 领域的消歧方法, 其特 征在于, 所述方法还 包括: 响应于确定所述初始模型训练未完成, 调整所述初始模型中的相关参数, 以及重新选 取训练样本, 使用调整后的初始模型作为初始模型, 继续执 行所述训练步骤。 4.一种应用于医学 领域的消歧装置, 包括: 获取单元, 被配置成获取医学知识图谱和待消歧数据; 消歧单元, 被配置成基于所述医学知识图谱, 对所述待消歧数据进行消歧处理, 得到新 的医学知识图谱; 存储单元, 被配置成将所述 新的医学知识图谱 存储至目标医学信息平台的数据库; 所述消歧单 元被进一 步配置成: 将所述医学知识图谱和所述待消歧数据输入至预先训练 的实体消歧模型, 输出所述待权 利 要 求 书 2/4 页 3 CN 114969386 B 3

.PDF文档 专利 应用于医学领域的消歧方法、装置、电子设备和介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 应用于医学领域的消歧方法、装置、电子设备和介质 第 1 页 专利 应用于医学领域的消歧方法、装置、电子设备和介质 第 2 页 专利 应用于医学领域的消歧方法、装置、电子设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:43:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。