全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210326124.3 (22)申请日 2022.03.30 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 李建强 肖银龙 徐曦  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 专利代理师 刘萍 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 一种基于多源词典的交叉Transformer中文 医疗命名实体识别方法 (57)摘要 本发明涉及一种基于多源词典的交叉 Transformer中文医疗命名实体识别方法。 本发 明加入多源词典信息, 通过特征提取模块, 分别 提取通用词汇增强的文本特征和 医疗词汇增强 的文本特征。 然后, 通过交叉Transformer模块, 将上一步得到的2种特征进行交互增强, 并动态 的进行融合。 最终, 使用融合后的文本特征来一 起预测中文医疗文本中的实体。 该方法可以同时 使用通用词典信息和医疗领域词典信息, 来提升 词典和实体之间的匹配率。 权利要求书2页 说明书4页 附图2页 CN 114707497 A 2022.07.05 CN 114707497 A 1.一种基于多源词典的交叉Transformer中文医疗命名实体识别方法, 其特征在于包 括以下步骤: S1: 多源词典匹配模块(MLM): 1).将原始文本复制2份, 分别与通用词典、 医疗词典进行匹配; 将匹配的词 汇拼接在文 本的后面, 分别得到包含通用词典词汇的新文本序列Sg和包含医疗词典词汇的新文本序列 Sm; 后续和文本序列Sg相关的变量会添加上 标g, 和文本序列Sm相关的变量会添加上 标m; 2).将文本中的字符和词汇统称为片段, 通过检索预训练的词典向量表, 得到文本序列 Sg的向量序列为Hg, 文本序列Sm的向量序列为Hm; 3).为每个片段分配两个位置索引: 片段第一个字符所在的位置索引head, 片段最后一 个字符所在的位置索引tail; 通过计算两个片段head、 tail的差值来得到片段i和片段j之 间的相对位置大小hij, tij, 公式如下: hij=head[i] ‑head[j]#(1) tij=tai[i] ‑tail[j]#(2) 其中head[i]表示片 段i的head索引, he ad[j]表示片 段j的head索引, tail[i]表示片 段 i的tail索引, tail[i]表示片段i的tail索引; 然后, 计算相对位置大小的向量表示Pd, 公式 如下: 其中d表示相对 位置大小, k表示位置索引, dmodel表示模型的维度; 表示向量Pd维度 索引为奇数时的值, 表示向量Pd维度索引为偶数时的值; 通过公式(3)、 (4), 得到相对位 置大小为时的向量表示Ph, 相对位置大小为tij时的向量表示Pt; 之后, 计算片 段i和片段j的 相对位置向量Rij; 公式如下: 其中Wr是随机初始化的参数; ReLU表示ReLU激活函数, 表示向量拼接; 参数Wr会随着 模型多轮训练自动更新, 模 型训练轮数的取值范围在50到100之间, 最 终保存多轮训练结果 中验证集F1值 最高的参数; 后续 参数的确定方法相同; 通过公式(5), 可以得到向量序列Hg中片段i和片段j的相对位置向量 向量序列Hm中 片段i和片段j的相对位置向量 S2: 特征提取模块(FE) 特征提取模块FE采用Flat  Lattice Transformer模型(FLAT); FLAT接收上一步得到的 文本向量序列Hg、 Hm以及对应的相对位置向量 然后通过嵌入相对位置的多头注意 力机制提取片段向量序列Hg的语义特征Fg, 提取片段向量序列Hm的语义特征Fm; Fg、 Fm包含了 文本的上 下文语义特 征和文本匹配词汇的词汇语义特 征; 计算公式如下: Fg=softmax(Ag)Vg#(9) Fm=softmax(Am)Vm#(10) Vg=WgHg#(12)权 利 要 求 书 1/2 页 2 CN 114707497 A 2Vm=WmHm#(13) 其中, Vg、 Vm分别表示Hg、 Hm经过线性变化后的向量, Hi表示片段i的向量, Hj表示片段j的 向量, Aij表示片段i和片段j的注意力权重; Am通过公式(11)得到, 表示向量序列Hm中所有片 段之间的注意力权重矩阵; Ag通过公式(11)得到, 表示向量序列Hg中所有片段 之间的注意力 权重矩阵; Wg、 Wm、 Wq、 Wk, R、 Wk, H、 u、 v都是随机初始化的参数, 会随着模型多轮训练自动更新, 模型训练轮数的取值范围在5 0到100之间; S3: 交叉Transformer模块(CT) 交叉Trans former模块(Cross  Transfor mer, 简写为CT)接收上一步得到的词汇增强后 的文本特征Fg、 Fm; 在CT模块中, 首先通过交叉注意力机制, 来交互Fg、 Fm之间的信息, 得到交 互增强后的文本特 征Finter‑gc、 Finter‑mc; 计算公式如下: Finter‑gc=CrossAttg→m(Fg, Fm)Fm#(14) Finter‑mc=CrossAttm→g(Fm, Fg)Fg#(15) 其中CrossAtt表示计算交叉注意力权重; g →m表示以Fg作为CrossAtt的查询条件, 以Fm 作为CrossAtt的查询字段; m →g表示以Fm作为CrossAtt的查询条件, 以Fg作为CrossAtt的查 询字段; 然后, 将交互增强后的信息和输入之前的信息拼接起来, 并通过线性变换Linear 来 保持维度不变, 得到最终的交 互增强特 征Fgc、 Fmc; 公式如下: Fgc=Linear[Fg; Finter‑gc]#(16) Fmc=Linear[Fm; Finter‑mc]#(17) S4: 特征动态融合模块(FGF) 不同的特征在不同的句子中有不同程度的影响, 因此采用特征动态融合模块FGF来动 态的选择对特征Fgc、 Fmc融合后保留的比重; FGF采用门控机制, 使用门控向量Vgate对上一步 得到的词汇增强后的文本特 征Fg、 Fm进行加权求和, 得到融合后的特 征Ff; 公式如下: hgc=tanh(FgcWgc+bgc)#(18) hmc=tanh(FmcWmc+bmc)#(19) Vgate=σ(([hgc; hmc])Wgate)#(20) Ff=VgateFgc+(1‑Vgate)Fmc#(21) 其中, hgc、 hmc分别表示Fgc、 Fmc经过非线性变换后的向量, Wgc, Wmc, Wgate, bgc, bmc是是随机 初始化的参数, 会随着模 型多轮训练自动更新, 模 型训练轮数的取值范围在50到100之间; σ 表示sigmod激活函数, tanh表示tanh 激活函数; S5: 标签预测模块(LP) 标签预测模 块采用全连接网络和CRF层对上一步得到的特征Ff进行标签预测; 全连接网 络将文本特征映射到标签分布空间, 输出标签预测概率; CRF层接收全连接网络输出的标签 预测概率, 输出最优的序列标注结果。权 利 要 求 书 2/2 页 3 CN 114707497 A 3

.PDF文档 专利 一种基于多源词典的交叉Transformer中文医疗命名实体识别方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多源词典的交叉Transformer中文医疗命名实体识别方法 第 1 页 专利 一种基于多源词典的交叉Transformer中文医疗命名实体识别方法 第 2 页 专利 一种基于多源词典的交叉Transformer中文医疗命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。