全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210333402.8 (22)申请日 2022.03.30 (71)申请人 医渡云 (北京) 技 术有限公司 地址 100191 北京市海淀区花园北路3 5号9 号楼8层801 (72)发明人 陈文昌 李思敏 杨亮 任保森  李林峰  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 王辉 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/295(2020.01) G16H 20/10(2018.01) G06F 16/36(2019.01)G06V 10/74(2022.01) G06V 30/148(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 医疗文本纠错方法及装置、 存储介质、 电子 设备 (57)摘要 本公开属于自然语 言处理技术领域, 涉及一 种医疗文本纠错方法及装置、 存储介质、 电子设 备。 该方法包括: 获取目标医疗文本和医学命名 实体, 并对目标医疗文本进行语境置信度计算得 到候选字和候选字的语境置信度; 对目标医疗文 本和候选字进行字符相似度计算得到字符相似 度, 并对候选字和医学命名实体进行实体相似度 计算得到实体相似度; 基于语境置信度、 字符相 似度和实体相似度, 利用候选字对目标医疗文本 进行文本纠错。 本公开为目标医疗文本的文本纠 错提供了 数据基础和理论支持, 丰富了文本纠错 可依据的数据维度, 从数据全面性方面保证了错 字检错和纠正的准确性, 提升了医疗文本的纠错 效果, 通过系统性的文本纠错方法提升了医疗文 本纠错的扩 展性。 权利要求书3页 说明书21页 附图9页 CN 114881006 A 2022.08.09 CN 114881006 A 1.一种医疗文本纠错方法, 其特 征在于, 所述方法包括: 获取目标医疗文本和医学命名实体, 并对所述目标医疗文本进行语境置信度计算得到 候选字和所述 候选字的语境置信度; 对所述目标医疗文本和所述候选字进行字符相似度计算得到字符相似度, 并对所述候 选字和所述医学命名实体进行实体相似度计算得到实体相似度; 基于所述语境置信度、 所述字符相似度和所述实体相似度, 利用所述候选字对所述目 标医疗文本进行文本纠错。 2.根据权利要求1所述的医疗文本纠错方法, 其特征在于, 所述对所述目标医疗文本进 行语境置信度计算得到候选 字和所述 候选字的语境置信度, 包括: 将所述目标医疗文本输入至预先训练好的医学语言表征模型中, 以使所述预先训练好 的医学语言表征模型对所述目标医疗文本进行语境置信度计算得到候选字和所述候选字 的语境置信度。 3.根据权利要求2所述的医疗文本纠错方法, 其特征在于, 在所述将所述目标医疗文本 输入至预 先训练好的医学语言表征模型中之前, 所述方法还 包括: 获取训练待训练的医学语言表征模型的医疗文本正样本; 将所述医疗文本正样本输入至所述待训练 的医学语言表征模型中, 以对所述待训练 的 医学语言表征模型进行训练, 直至 完成训练得到预 先训练好的医学语言表征模型。 4.根据权利要求3所述的医疗文本纠错方法, 其特征在于, 所述对所述目标医疗文本和 所述候选字进行字符相似度计算得到 字符相似度, 包括: 对所述目标医疗文本和所述 候选字的字形进行字形相似度计算得到所述字形相似度; 对所述目标医疗文本和所述 候选字的字音 进行字音相似度计算得到所述字音相似度; 根据所述字形相似度和所述字音相似度确定所述目标医疗文本和所述候选字的字符 相似度。 5.根据权利要求4所述的医疗文本纠错方法, 其特征在于, 所述对所述目标医疗文本和 所述候选字的字形进行字形相似度计算得到所述字形相似度, 包括: 对所述目标医疗文本进行表意文字描述得到目标文字描述符, 并对所述候选字进行表 意文字描述得到候选文字描述符; 对所述目标文字描述符和所述候选文字描述符进行编辑距离计算得到所述目标医疗 文本和所述 候选字的字形编辑距离; 对所述字形编辑距离进行字形相似度计算得到所述目标医疗文本和所述候选字的字 形相似度。 6.根据权利要求4所述的医疗文本纠错方法, 其特征在于, 所述对所述目标医疗文本和 所述候选字的字音 进行字音相似度计算得到所述字音相似度, 包括: 获取所述目标医疗文本的目标读音表征, 并获取 所述候选字的候选读音表征; 对所述目标读音表征和所述候选读音表征进行编辑距离计算得到所述目标医疗文本 和所述候选字的字音编辑距离; 对所述字音编辑距离进行字音相似度计算得到所述目标医疗文本和所述候选字的字 音相似度。 7.根据权利要求4所述的医疗文本纠错方法, 其特征在于, 所述根据所述字形相似度和权 利 要 求 书 1/3 页 2 CN 114881006 A 2所述字音相似度确定所述目标医疗文本和所述 候选字的字符相似度, 包括: 将所述字形相似度确定为所述目标医疗文本和所述 候选字的字符相似度; 或 将所述字音相似度确定为所述目标医疗文本和所述 候选字的字符相似度; 或 对所述字形相似度和所述字音相似度进行加权计算得到所述目标医疗文本和所述候 选字的字符相似度。 8.根据权利要求4所述的医疗文本纠 错方法, 其特征在于, 所述基于所述语境置信度、 所述字符相似度和所述实体相似度, 利用所述候选字对所述 目标医疗文本进行文本纠错, 包括: 获取与所述医疗文本正样本对应的医疗文本负样本, 并对所述医疗文本正样本和所述 医疗文本负 样本进行消融试验得到消融平面; 根据所述语境置信度、 所述字符相似度和所述实体相似度确定所述候选字相对于所述 消融平面的位置坐标; 基于所述 位置坐标, 利用所述 候选字对所述目标医疗文本进行文本纠错。 9.根据权利要求8所述的医疗文本纠 错方法, 其特征在于, 所述基于所述位置坐标, 利 用所述候选字对所述目标医疗文本进行文本纠错, 包括: 若所述位置坐标处于所述消融平面的上方, 利用所述候选字对所述目标医疗文本进行 文本纠错。 10.根据权利要求8所述的医疗文本纠 错方法, 其特征在于, 所述利用所述候选字对所 述目标医疗文本进行文本纠错, 包括: 若多个所述候选字对应的位置坐标处于所述消融平面的上方, 根据所述字符相似度确 定多个所述 候选字中的一个为目标候选 字; 利用所述目标候选 字对所述目标医疗文本进行文本纠错。 11.根据权利要求9所述的医疗文本纠错方法, 其特 征在于, 所述方法还 包括: 若所述位置坐标处于所述消融平面的下 方, 保留所述目标医疗文本 。 12.根据权利要求1所述的医疗文本纠 错方法, 其特征在于, 所述对所述候选字和所述 医学命名实体进行实体相似度计算得到实体相似度, 包括: 对所述候选字和所述医学命名实体进行编辑距离计算得到实体编辑距离; 对所述实体编辑距离进行归一化处理得到所述候选字和所述医学命名实体的实体相 似度。 13.一种医疗文本纠错装置, 其特 征在于, 包括: 第一计算模块, 被配置为获取目标医疗文本和医学命名实体, 并对所述目标医疗文本 进行语境置信度计算得到候选 字和所述 候选字的语境置信度; 第二计算模块, 被配置为对所述目标医疗文本和所述候选字进行字符相似度计算得到 字符相似度, 并对所述 候选字和所述医学命名实体进行实体相似度计算得到实体相似度; 文本纠错模块, 被配置为基于所述语境置信度、 所述字符相似度和所述实体相似度, 利 用所述候选字对所述目标医疗文本进行文本纠错。 14.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被发送器执 行时实现权利要求1 ‑12中任意 一项所述的医疗文本纠错方法。 15.一种电子设备, 其特 征在于, 包括:权 利 要 求 书 2/3 页 3 CN 114881006 A 3

.PDF文档 专利 医疗文本纠错方法及装置、存储介质、电子设备

文档预览
中文文档 34 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共34页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 医疗文本纠错方法及装置、存储介质、电子设备 第 1 页 专利 医疗文本纠错方法及装置、存储介质、电子设备 第 2 页 专利 医疗文本纠错方法及装置、存储介质、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。