全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 20221012102 2.8 (22)申请日 2022.02.09 (65)同一申请的已公布的文献号 申请公布号 CN 114153995 A (43)申请公布日 2022.03.08 (73)专利权人 杭州太美星程医药 科技有限公司 地址 311200 浙江省杭州市萧 山区北干街 道建设二路666号信息港六期3幢602 室 (72)发明人 王永明  (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 周达 (51)Int.Cl. G06F 16/36(2019.01)G06F 40/126(2020.01) G06F 40/194(2020.01) G06F 40/279(2020.01) G16H 10/20(2018.01) (56)对比文件 CN 111581976 A,2020.08.25 CN 109582 955 A,2019.04.0 5 JP 2010055146 A,2010.0 3.11 US 2013231957 A1,2013.09.0 5 审查员 单娟 (54)发明名称 医学术语的处理方法、 装置、 计算机设备和 存储介质 (57)摘要 本说明书实施方式提供了一种医学术语处 理的方法、 装置、 计算机设备和存储介质。 包括: 针对医学原词从预设标准医学术语知识图谱库 中召回多个标准医学术语, 将所述多个标准医学 术语作为目标候选标准医学术语; 对 所述目标候 选标准医学术语 分别构建多维特征向量; 使用所 述医学原词生成的词向量与所述多维特征向量 进行相似度运算, 得出所述多维特征向量对应的 目标候选标准医学术语与所述医学原词的相似 度; 基于所述相似度在目标候选标准医学术语中 确定目标标准医学术语。 通过采用多种召回策略 提高召回候选标准医学术语的准确率, 再根据相 似度计算的结果确定目标标准医学术语, 提高了 医学术语编码人员的工作效率。 权利要求书3页 说明书9页 附图4页 CN 114153995 B 2022.05.24 CN 114153995 B 1.一种医学术语的处 理方法, 其特 征在于, 包括: 针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语, 将所述多个 标准医学术语作为 目标候选标准医学术语; 其中, 所述预设标准医学术语知识图谱库中包 括若干标准医学术语; 其中, 所述医学原词对应所述标准医学术语具有关系数据; 对所述目标候选标准医学术语分别构建多维特征向量; 其中, 所述多维特征向量基于 所述目标候选标准医学术语对应所述医学原词的关系数据, 以及所述目标候选标准医学术 语的词向量 生成; 使用所述医学原词生成的词向量与 所述多维特征向量进行相似度运算, 得出所述多维 特征向量对应的目标候选标准医学术语与所述医学原词的相似度; 基于所述相似度在目标候选标准医学术语中确定目标 标准医学术语; 其中, 所述针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语, 将所述多个标准医学术语作为目标候选标准医学术语, 包括: 生成所述医学原词的词向量; 根据预设的标准医学术语知识图谱库中的标准医学术语、 标准医学术语的属性信息和标准 医学术语之间的关系生成所述标准医学术语的词向量; 其中, 所述标准医学术语的词向量 用以表征所述标准医学术语; 将所述医学原词的词向量与所述标准医学术语的向量输入到 预设第一深度学习模型中计算匹配度; 其中, 所述第一深度学习模型对应有不同的召回策 略; 其中, 所述召回策略至少包括以下中的两个: 基于字词的匹配度运算召回、 基于编辑距 离的匹配度运算召回、 基于词向量的匹配度运算召回、 基于词频的匹配度运算召回; 按照所 述匹配度的大小顺序, 输出所述标准医学术语及所述标准医学术语对应的匹配度; 根据所 述匹配度和不同召回策略对应的设定的个数确定不同召回策略召回的候选标准医学术语; 将不同的召回策略召回的候选标准医学术语合并得到目标候选标准医学术语。 2.根据权利要求1所述的方法, 其特征在于, 针对医学原词从预设标准医学术语知识图 谱库中召回多个标准医学术语, 将所述多个标准医学术语作为目标候选标准医学术语前的 步骤, 还包括: 对输入的初始医学原词进行预处理得到所述医学原词; 其中, 所述医学原词至少包括 一个词语。 3.根据权利要求2所述的方法, 其特征在于, 对输入的初始医学原词进行预处理的步 骤, 包括: 对所述初始医学原词进行转换; 其中, 所述转换至少包括以下之一: 大小写转换、 全半 角转换、 简繁体转换; 对经过转换的初始医学术语原词进行分词处 理, 并对所述分词的词性进行 标注; 将所述分词 进行改写得到医学原词; 其中, 所述改写至少包括以下之一: 所述分词的错 词改写、 所述分词的同义词扩展; 根据所述医学原词在所述标准医学术语知识图谱库中的词频设置 权重。 4.根据权利要求1所述的方法, 其特征在于, 将不同的召回策略召回的候选标准医学术 语合并得到目标候选标准医学术语的步骤, 包括: 设定不同召回策略召回的候选标准医学术语 个数; 根据所述匹配度和所述个数确定不同策略召回的候选标准医学术语; 对不同的策略召回的候选标准医学术语合并, 得到目标候选标准医学术语。权 利 要 求 书 1/3 页 2 CN 114153995 B 25.根据权利要求1所述的方法, 对所述目标候选标准医学术语分别构建多维特征向量 的步骤, 包括: 计算所述目标候选标准医学术语与医学原词之间的编辑距离; 将所述编辑距离和所述目标候选标准医学术语的词向量作为所述目标候选标准医学 术语的多维特 征向量。 6.根据权利要求1所述的方法, 使用所述医学原词生成的词向量与所述多维特征向量 进行相似度运算, 得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的 相似度的步骤, 包括: 将所述医学原词生成的向量与所述多维特征向量输入到预设第二深度学习模型中进 行相似度计算得到所述医学原词与所述目标候选标准医学术语的相似度; 按照所述相似度大小的顺序, 输出目标候选标准医学术语及对应的相似度; 根据所述相似度大小的顺序和预设输出目标候选标准医学术语输出的个数确定目标 标准医学术语。 7.根据权利要求1所述的方法, 其特征在于, 针对医学原词从预设标准医学术语知识图 谱库中召回多个标准医学术语, 将所述多个标准医学术语作为目标候选标准医学术语前的 步骤, 还包括: 获取构建标准医学术语知识图谱的数据; 其中, 所述数据包括医学实体、 医学实体的属 性信息、 各医学实体之间的关系信息; 根据所述医学实体、 所述医学实体的属性信息、 所述各医学实体之间的关系信息构建 标准医学术语知识图谱; 将所述标准医学术语知识图谱 存储到所述标准医学术语知识图谱库中。 8.一种医学术语的处 理装置, 其特 征在于, 包括: 候选标准医学术语召回模块, 用于针对医学原词从预设标准医学术语知识图谱库中召 回多个标准医学术语, 将所述多个标准医学术语作为目标候选标准医学术语; 其中, 所述预 设标准医学术语知识图谱库中包括若干标准医学术语; 其中, 所述医学原词对应所述标准 医学术语具有关系数据; 多维特征向量构建模块, 用于对所述目标候选标准医学术语分别构建多维特征向量; 其中, 所述多维特征向量基于所述 目标候选标准医学术语对应所述医学原词的关系 数据, 以及所述目标候选标准医学术语的词向量 生成; 相似度运算模块, 用于使用所述医学原词生成的词向量与所述多维特征向量进行相似 度运算, 得出所述多维特 征向量对应的目标候选标准医学术语与所述医学原词的相似度; 目标标准医学术语确定模块, 用于基于所述相似度在候选标准医学术语中确定目标标 准医学术语; 其中, 所述候选标准医学术语召回模块还用于生成所述医学原词的词向量; 根据预设 的标准医学术语知识图谱库中的标准医学术语、 标准医学术语的属性信息和标准医学术语 之间的关系生成所述标准医学术语的词向量; 其中, 所述标准医学术语的词向量用以表征 所述标准医学术语; 将所述医学原词的词向量与所述标准医学术语的向量输入到预设第一 深度学习模型中计算匹配度; 其中, 所述第一深度学习模型对应有不同的召回策略; 其中, 所述召回策略至少包括以下中的两个: 基于字词的匹配度运算召回、 基于编辑距离的匹配权 利 要 求 书 2/3 页 3 CN 114153995 B 3

.PDF文档 专利 医学术语的处理方法、装置、计算机设备和存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 医学术语的处理方法、装置、计算机设备和存储介质 第 1 页 专利 医学术语的处理方法、装置、计算机设备和存储介质 第 2 页 专利 医学术语的处理方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。