专利医学术语的处理方法、装置、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 20221012102 2.8 (22)申请日 2022.02.09 (65)同一申请的已公布的文献号申请公布号 CN 114153995 A (43)申请公布日 2022.03.08 (73)专利权人杭州太美星程医药科技有限公司地址 311200 浙江省杭州市萧山区北干街道建设二路666号信息港六期3幢602 室 (72)发明人王永明　 (74)专利代理机构北京布瑞知识产权代理有限公司 11505 专利代理师周达 (51)Int.Cl. G06F 16/36(2019.01)G06F 40/126(2020.01) G06F 40/194(2020.01) G06F 40/279(2020.01) G16H 10/20(2018.01) (56)对比文件 CN 111581976 A,2020.08.25 CN 109582 955 A,2019.04.0 5 JP 2010055146 A,2010.0 3.11 US 2013231957 A1,2013.09.0 5 审查员单娟 (54)发明名称医学术语的处理方法、装置、计算机设备和存储介质 (57)摘要本说明书实施方式提供了一种医学术语处理的方法、装置、计算机设备和存储介质。包括：针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语，将所述多个标准医学术语作为目标候选标准医学术语；对所述目标候选标准医学术语分别构建多维特征向量；使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算，得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度；基于所述相似度在目标候选标准医学术语中确定目标标准医学术语。通过采用多种召回策略提高召回候选标准医学术语的准确率，再根据相似度计算的结果确定目标标准医学术语，提高了医学术语编码人员的工作效率。权利要求书3页说明书9页附图4页 CN 114153995 B 2022.05.24 CN 114153995 B 1.一种医学术语的处理方法，其特征在于，包括：针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语，将所述多个标准医学术语作为目标候选标准医学术语；其中，所述预设标准医学术语知识图谱库中包括若干标准医学术语；其中，所述医学原词对应所述标准医学术语具有关系数据；对所述目标候选标准医学术语分别构建多维特征向量；其中，所述多维特征向量基于所述目标候选标准医学术语对应所述医学原词的关系数据，以及所述目标候选标准医学术语的词向量生成；使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算，得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度；基于所述相似度在目标候选标准医学术语中确定目标标准医学术语；其中，所述针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语，将所述多个标准医学术语作为目标候选标准医学术语，包括：生成所述医学原词的词向量；根据预设的标准医学术语知识图谱库中的标准医学术语、标准医学术语的属性信息和标准医学术语之间的关系生成所述标准医学术语的词向量；其中，所述标准医学术语的词向量用以表征所述标准医学术语；将所述医学原词的词向量与所述标准医学术语的向量输入到预设第一深度学习模型中计算匹配度；其中，所述第一深度学习模型对应有不同的召回策略；其中，所述召回策略至少包括以下中的两个：基于字词的匹配度运算召回、基于编辑距离的匹配度运算召回、基于词向量的匹配度运算召回、基于词频的匹配度运算召回；按照所述匹配度的大小顺序，输出所述标准医学术语及所述标准医学术语对应的匹配度；根据所述匹配度和不同召回策略对应的设定的个数确定不同召回策略召回的候选标准医学术语；将不同的召回策略召回的候选标准医学术语合并得到目标候选标准医学术语。 2.根据权利要求1所述的方法，其特征在于，针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语，将所述多个标准医学术语作为目标候选标准医学术语前的步骤，还包括：对输入的初始医学原词进行预处理得到所述医学原词；其中，所述医学原词至少包括一个词语。 3.根据权利要求2所述的方法，其特征在于，对输入的初始医学原词进行预处理的步骤，包括：对所述初始医学原词进行转换；其中，所述转换至少包括以下之一：大小写转换、全半角转换、简繁体转换；对经过转换的初始医学术语原词进行分词处理，并对所述分词的词性进行标注；将所述分词进行改写得到医学原词；其中，所述改写至少包括以下之一：所述分词的错词改写、所述分词的同义词扩展；根据所述医学原词在所述标准医学术语知识图谱库中的词频设置权重。 4.根据权利要求1所述的方法，其特征在于，将不同的召回策略召回的候选标准医学术语合并得到目标候选标准医学术语的步骤，包括：设定不同召回策略召回的候选标准医学术语个数；根据所述匹配度和所述个数确定不同策略召回的候选标准医学术语；对不同的策略召回的候选标准医学术语合并，得到目标候选标准医学术语。权　利　要　求　书 1/3 页 2 CN 114153995 B 25.根据权利要求1所述的方法，对所述目标候选标准医学术语分别构建多维特征向量的步骤，包括：计算所述目标候选标准医学术语与医学原词之间的编辑距离；将所述编辑距离和所述目标候选标准医学术语的词向量作为所述目标候选标准医学术语的多维特征向量。 6.根据权利要求1所述的方法，使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算，得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度的步骤，包括：将所述医学原词生成的向量与所述多维特征向量输入到预设第二深度学习模型中进行相似度计算得到所述医学原词与所述目标候选标准医学术语的相似度；按照所述相似度大小的顺序，输出目标候选标准医学术语及对应的相似度；根据所述相似度大小的顺序和预设输出目标候选标准医学术语输出的个数确定目标标准医学术语。 7.根据权利要求1所述的方法，其特征在于，针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语，将所述多个标准医学术语作为目标候选标准医学术语前的步骤，还包括：获取构建标准医学术语知识图谱的数据；其中，所述数据包括医学实体、医学实体的属性信息、各医学实体之间的关系信息；根据所述医学实体、所述医学实体的属性信息、所述各医学实体之间的关系信息构建标准医学术语知识图谱；将所述标准医学术语知识图谱存储到所述标准医学术语知识图谱库中。 8.一种医学术语的处理装置，其特征在于，包括：候选标准医学术语召回模块，用于针对医学原词从预设标准医学术语知识图谱库中召回多个标准医学术语，将所述多个标准医学术语作为目标候选标准医学术语；其中，所述预设标准医学术语知识图谱库中包括若干标准医学术语；其中，所述医学原词对应所述标准医学术语具有关系数据；多维特征向量构建模块，用于对所述目标候选标准医学术语分别构建多维特征向量；其中，所述多维特征向量基于所述目标候选标准医学术语对应所述医学原词的关系数据，以及所述目标候选标准医学术语的词向量生成；相似度运算模块，用于使用所述医学原词生成的词向量与所述多维特征向量进行相似度运算，得出所述多维特征向量对应的目标候选标准医学术语与所述医学原词的相似度；目标标准医学术语确定模块，用于基于所述相似度在候选标准医学术语中确定目标标准医学术语；其中，所述候选标准医学术语召回模块还用于生成所述医学原词的词向量；根据预设的标准医学术语知识图谱库中的标准医学术语、标准医学术语的属性信息和标准医学术语之间的关系生成所述标准医学术语的词向量；其中，所述标准医学术语的词向量用以表征所述标准医学术语；将所述医学原词的词向量与所述标准医学术语的向量输入到预设第一深度学习模型中计算匹配度；其中，所述第一深度学习模型对应有不同的召回策略；其中，所述召回策略至少包括以下中的两个：基于字词的匹配度运算召回、基于编辑距离的匹配权　利　要　求　书 2/3 页 3 CN 114153995 B 3

专利 医学术语的处理方法、装置、计算机设备和存储介质

专利医学术语的处理方法、装置、计算机设备和存储介质