全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210981326.1 (22)申请日 2022.08.16 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 李建强 杨鲤银 竹志超  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 郭金梅 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 40/205(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G16H 10/60(2018.01) (54)发明名称 中医文本实体消歧方法、 装置、 电子设备及 存储介质 (57)摘要 本发明提供一种中医文本实体消歧方法、 装 置、 电子设备及存储介质, 该方法包括: 根据获取 的待处理 中医文本, 利用基于转换器的双向编码 表征BERT模型, 确定字向量; 根据所述字向量, 确 定所述待处理中医文本对应的语义特征向量; 根 据所述语义特征向量, 利用注意力机制, 确定待 消歧实体信息; 对所述待消歧实体信息进行实体 消歧处理, 确定所述待处理中医文本对应的识别 文本。 该方法用以解决现有技术中的对中医电子 病历进行识别的方法中, 传统的LS TM‑Attention 模型对该中医电子病历的识别存在一定的局限 性, 从而导致该电子设备基于该传统的LSTM ‑ Attention模型无法准确确定 该中医电子病历 对 应的识别结果的缺陷, 实现电子设备基于可准确 确定待处 理中医文本对应的识别文本 。 权利要求书2页 说明书8页 附图1页 CN 115409022 A 2022.11.29 CN 115409022 A 1.一种中 医文本实体消歧方法, 其特 征在于, 包括: 根据获取的待处 理中医文本, 利用基于转换器的双向编码表征BERT模型, 确定 字向量; 根据所述字向量, 确定所述待处 理中医文本对应的语义特 征向量; 根据所述语义特 征向量, 利用注意力机制, 确定待消歧实体信息; 对所述待消歧实体信息进行实体消歧处理, 确定所述待处理中医文本对应的识别文 本。 2.根据权利要求1所述的方法, 其特征在于, 所述根据获取的待处理中医文本, 利用基 于转换器的双向编码表征BERT模型, 确定 字向量, 包括: 获取待处 理中医文本; 将所述待 处理中医文本输入至基于转换器的双向编码表征BERT模型, 得到所述BERT模 型输出的字符特 征向量; 将所述字符特 征向量转化为预设维度的字向量。 3.根据权利要求1或2所述的方法, 其特征在于, 所述根据所述字向量, 确定所述待处理 中医文本对应的语义特 征向量, 包括: 根据所述字向量, 利用双向长短时记忆BI ‑LSTM网络, 确定所述待 处理中医文本对应的 上下文语义特 征向量; 及 根据所述字向量, 利用卷积神经网络CNN, 确定所述待处理中医文本对应的局部语义特 征向量。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述字向量, 利用 双向长短时记 忆BI‑LSTM网络, 确定所述待处 理中医文本对应的上 下文语义特 征向量, 包括: 将所述字向量输入至双向长短时记忆BI ‑LSTM网络, 得到所述BI ‑LSTM网络正向输出的 第一特征向量及所述BI ‑LSTM网络反向输出的第二特 征向量; 对所述第一特征向量及所述第 二特征向量进行融合, 确定所述待处理中医文本对应的 上下文语义特 征向量。 5.根据权利要求4所述的方法, 其特征在于, 所述对所述第 一特征向量及所述第 二特征 向量进行融合, 确定所述待处 理中医文本对应的上 下文语义特 征向量, 包括: 根据向量融合公式, 确定所述待处 理中医文本对应的上 下文语义特 征向量; 其中, 所述向量融合公式为Ht=ωT[( α1h1), ( α2h2)]+b1; Ht表示所述上下文语义特征向量; ω表示模型参数矩阵, ωT表示模型参数矩阵ω的转 置; α1表示正向输出系数; h1表示所述第一特征向量; α2表示反向输出系数; h2表示所述第二 特征向量; b1表示所述BI ‑LSTM网络对应的偏置值。 6.根据权利要求3所述的方法, 其特征在于, 所述根据所述字向量, 利用卷积神经网络 CNN, 确定所述待处 理中医文本对应的局部语义特 征向量, 包括: 根据卷积神经网络CNN中的局部特征公式, 确定所述待处理中医文本对应的局部语义 特征向量; 其中, 所述局部特 征公式为ft=f(ki*vt:t+j‑1+b2); ft表示所述局部语义特征向量; ki表示常数; vt表示所述字向量; j表示卷积核k的窗口 大小; b2表示所述卷积神经网络 CNN对应的偏置值。 7.根据权利要求3所述的方法, 其特征在于, 所述根据所述语义特征向量, 利用注意力权 利 要 求 书 1/2 页 2 CN 115409022 A 2机制, 确定待消歧实体信息, 包括: 根据所述上下文语义特征向量及所述局部语义特征向量, 利用注意力机制, 确定关键 特征向量; 利用分类 器对所述关键特 征向量进行分类, 确定待消歧实体信息 。 8.一种中 医文本实体消歧装置, 其特 征在于, 包括: 向量确定模块, 用于根据获取模块获取的待处理中医文本, 利用基于转换器的双 向编 码表征BERT模 型, 确定字向量; 根据所述字向量, 确定所述待处理中医文本对应的语义特征 向量; 根据所述语义特 征向量, 利用注意力机制, 确定待消歧实体信息; 文本确定模块, 用于对所述待消歧实体信息进行实体消歧处理, 确定所述待处理中医 文本对应的识别文本 。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7一项所述 中医文本实体消歧方法。 10.种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处 理器执行时实现如权利要求1至7一项所述中 医文本实体消歧方法。权 利 要 求 书 2/2 页 3 CN 115409022 A 3

PDF文档 专利 中医文本实体消歧方法、装置、电子设备及存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 中医文本实体消歧方法、装置、电子设备及存储介质 第 1 页 专利 中医文本实体消歧方法、装置、电子设备及存储介质 第 2 页 专利 中医文本实体消歧方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。