全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211272636.2 (22)申请日 2022.10.18 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 相艳 柳如熙 郭军军 线岩团  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称 融合词汇类别表征的中文领域文本命名实 体识别方法 (57)摘要 本发明涉及融合词汇类别表征的中文领域 文本命名实体识别方法, 属于命名实体识别技术 领域。 本发明将字符嵌入、 词汇及其类别嵌入送 入Transformer编码器进行编码和融合, 获得类 别增强的字符表征, 并在输出端通过门控机制将 字符表征与类别表征再次结合, 并送入CRF解码, 得到字符的实体标签。 本发明在中文医疗信息处 理挑战榜CBLUE的两个数据集上进行了实验, 结 果表明本发明的性能相比其他基模型获得了明 显提高。 权利要求书3页 说明书11页 附图1页 CN 115545033 A 2022.12.30 CN 115545033 A 1.融合词汇类别表征的中文领域文本命名实体识别方法, 其特征在于: 所述融合词汇 类别表征的中文领域文本命名实体识别方法包括如下步骤: Step1、 获得基于文本的词向量表示及其对应的类别向量表示; Step2、 获得含有类别 信息的融合特 征表示; Step3、 将融合特 征表示输入Transformer编码器; Step4、 基于交 互门控机制进行信息 筛选; Step5、 CRF解码生成预测标签。 2.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特 征在于: 所述Step1中, 构建了包含词汇类别信息的词典, 词典数据来源于搜集的领域文本 及数据集的训练集信息, 以 “词汇, 词汇类别 ”的格式储存; 在获得文本中包含的词汇后, 根 据词典匹配对应的类别并获得W ord2vec训练的词向量以及类别向量。 3.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特 征在于: 所述Step1具体包括如下: 对于输入的文本序列, 分别获取字符向量 匹配的词汇向量 及其类别向量 对于字符嵌入, 使用在语料上所训练的字符向量来作为字符的初始嵌入; 具体做法为: 根据训练好的character  embedding  lookup table, 在基于标准分词后的中文语料库 Gigaword上使用Word2vec工具训练的嵌入集合; 由此将字符xi映射到字符嵌入表示 及bigram嵌入表示 领域词嵌入使用word2vec进行训练, 维度为50, 窗口设置为5, 最小词频设置为5, 共训 练5轮; 最后得到领域词嵌入索引Ew, 将每个词汇yj映射到一个词嵌入表示 对于词汇的类别嵌入, 构建了一个包含词汇类别的领域词典Lt, 以“词汇, 词汇类别 ”的 格式储存, 构成包含词汇类别信息的领域词典Lt; Lt将词汇yj映射到类别tj, 再通过Ew映射到 一个嵌入表示 tj=Lt(yj)               (4) 若词汇没有找到对应的类别, 则将其映射 为一个固定的随机初始化的嵌入表示。 4.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特 征在于: 所述Step2中, 得到类别向量表 示后, 将其和词向量进 行拼接, 获得含有类别信息的 融合特征表示。 5.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特 征在于: 所述Step2具体包括如下: Step2.1、 对于输入的文本序列S={x1,x2,...xm}, 其中xi表示句子 中的字, 通过不同的 字符跨度匹配文本中的词及其类别向量, 将类别表征显式嵌入词向量; 模型从序列开头以权 利 要 求 书 1/3 页 2 CN 115545033 A 2不同的span与词典Ew中的词汇比对, 若有和字符集合相同的词, 则将匹配到的词yj放在句子 的后面, 此时文本序列变成S1={x1,x2,...xn,y1,y2,...ym}; Step2.2、 然后, 将输入序列中的各个字符xi映射到一个字符嵌入表示 以及一个 bigram特征嵌入 将 和 拼接得到融合bigram特征的字符嵌入 此时 模型的输入嵌入序列为 其中, 表示向量的拼接运 算; Step2.3、 对于文本序列中的词汇yj, 将输入序列中的各个词映射到一个词汇嵌入 并将各个词映射到一个类别嵌入 随后, 将每个词汇的类别向量 与词汇向量 拼接得到融合类别表 征的词汇向量表示 用e表示嵌入, 计算 过程如下 所示; Step2.4、 最后, 将向量 和 通过线性变换变为 dmodel 表示多头注意力维度, 此时模型的输入向量序列为 6.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特 征在于: 所述Step3中, 获得含有类别信息的融合特征表示后, 将融合特征表示输入 Transformer编码器, 得到融合词以及类别信息的字符特征; 采用{B,M,E,O,S}标记方案, 其 中, B表示实体的起始位置、 M表示中间位置、 E表示结束位置, O表示没有实体的位置, S表示 一个字的实体。 7.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特 征在于: 所述Step3包括如下: 给每一个字符和词汇增加了两个位置编码, 分别表示该字或词在句子中开始和结束的 位置, hi和ti分别表示字符和词汇的头、 尾位置坐标, 并从四个不同的角度来计算xi和yj的 距离, 从而得到四个相对距 离矩阵 其中 表示xi和yj头坐标之间 的距离矩阵, 表示xi的尾坐标和yj头坐标之间 的距离矩阵, 表示xi的头坐标和yj尾 坐标之间的距 离矩阵, 表示xi和yj尾坐标之间的距 离矩阵; 将这四个距 离拼接后作一个 非线性变换, 得到xi和yj的位置编码向量Rij, 具体计算过程如公式8 ‑10所示; 其中, dmodel表示多头注意力维度, Wr是可学习参数, 表示向量的拼接运算, d表示四个权 利 要 求 书 2/3 页 3 CN 115545033 A 3

.PDF文档 专利 融合词汇类别表征的中文领域文本命名实体识别方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合词汇类别表征的中文领域文本命名实体识别方法 第 1 页 专利 融合词汇类别表征的中文领域文本命名实体识别方法 第 2 页 专利 融合词汇类别表征的中文领域文本命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:14:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。