(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211272636.2
(22)申请日 2022.10.18
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 相艳 柳如熙 郭军军 线岩团
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/284(2020.01)
G06N 20/00(2019.01)
(54)发明名称
融合词汇类别表征的中文领域文本命名实
体识别方法
(57)摘要
本发明涉及融合词汇类别表征的中文领域
文本命名实体识别方法, 属于命名实体识别技术
领域。 本发明将字符嵌入、 词汇及其类别嵌入送
入Transformer编码器进行编码和融合, 获得类
别增强的字符表征, 并在输出端通过门控机制将
字符表征与类别表征再次结合, 并送入CRF解码,
得到字符的实体标签。 本发明在中文医疗信息处
理挑战榜CBLUE的两个数据集上进行了实验, 结
果表明本发明的性能相比其他基模型获得了明
显提高。
权利要求书3页 说明书11页 附图1页
CN 115545033 A
2022.12.30
CN 115545033 A
1.融合词汇类别表征的中文领域文本命名实体识别方法, 其特征在于: 所述融合词汇
类别表征的中文领域文本命名实体识别方法包括如下步骤:
Step1、 获得基于文本的词向量表示及其对应的类别向量表示;
Step2、 获得含有类别 信息的融合特 征表示;
Step3、 将融合特 征表示输入Transformer编码器;
Step4、 基于交 互门控机制进行信息 筛选;
Step5、 CRF解码生成预测标签。
2.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特
征在于: 所述Step1中, 构建了包含词汇类别信息的词典, 词典数据来源于搜集的领域文本
及数据集的训练集信息, 以 “词汇, 词汇类别 ”的格式储存; 在获得文本中包含的词汇后, 根
据词典匹配对应的类别并获得W ord2vec训练的词向量以及类别向量。
3.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特
征在于: 所述Step1具体包括如下:
对于输入的文本序列, 分别获取字符向量
匹配的词汇向量
及其类别向量
对于字符嵌入, 使用在语料上所训练的字符向量来作为字符的初始嵌入; 具体做法为:
根据训练好的character embedding lookup table, 在基于标准分词后的中文语料库
Gigaword上使用Word2vec工具训练的嵌入集合; 由此将字符xi映射到字符嵌入表示
及bigram嵌入表示
领域词嵌入使用word2vec进行训练, 维度为50, 窗口设置为5, 最小词频设置为5, 共训
练5轮; 最后得到领域词嵌入索引Ew, 将每个词汇yj映射到一个词嵌入表示
对于词汇的类别嵌入, 构建了一个包含词汇类别的领域词典Lt, 以“词汇, 词汇类别 ”的
格式储存, 构成包含词汇类别信息的领域词典Lt; Lt将词汇yj映射到类别tj, 再通过Ew映射到
一个嵌入表示
tj=Lt(yj) (4)
若词汇没有找到对应的类别, 则将其映射 为一个固定的随机初始化的嵌入表示。
4.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特
征在于: 所述Step2中, 得到类别向量表 示后, 将其和词向量进 行拼接, 获得含有类别信息的
融合特征表示。
5.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特
征在于: 所述Step2具体包括如下:
Step2.1、 对于输入的文本序列S={x1,x2,...xm}, 其中xi表示句子 中的字, 通过不同的
字符跨度匹配文本中的词及其类别向量, 将类别表征显式嵌入词向量; 模型从序列开头以权 利 要 求 书 1/3 页
2
CN 115545033 A
2不同的span与词典Ew中的词汇比对, 若有和字符集合相同的词, 则将匹配到的词yj放在句子
的后面, 此时文本序列变成S1={x1,x2,...xn,y1,y2,...ym};
Step2.2、 然后, 将输入序列中的各个字符xi映射到一个字符嵌入表示
以及一个
bigram特征嵌入
将
和
拼接得到融合bigram特征的字符嵌入
此时
模型的输入嵌入序列为
其中,
表示向量的拼接运 算;
Step2.3、 对于文本序列中的词汇yj, 将输入序列中的各个词映射到一个词汇嵌入
并将各个词映射到一个类别嵌入
随后, 将每个词汇的类别向量
与词汇向量
拼接得到融合类别表 征的词汇向量表示
用e表示嵌入, 计算
过程如下 所示;
Step2.4、 最后, 将向量
和
通过线性变换变为
dmodel
表示多头注意力维度, 此时模型的输入向量序列为
6.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特
征在于: 所述Step3中, 获得含有类别信息的融合特征表示后, 将融合特征表示输入
Transformer编码器, 得到融合词以及类别信息的字符特征; 采用{B,M,E,O,S}标记方案, 其
中, B表示实体的起始位置、 M表示中间位置、 E表示结束位置, O表示没有实体的位置, S表示
一个字的实体。
7.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法, 其特
征在于: 所述Step3包括如下:
给每一个字符和词汇增加了两个位置编码, 分别表示该字或词在句子中开始和结束的
位置, hi和ti分别表示字符和词汇的头、 尾位置坐标, 并从四个不同的角度来计算xi和yj的
距离, 从而得到四个相对距 离矩阵
其中
表示xi和yj头坐标之间
的距离矩阵,
表示xi的尾坐标和yj头坐标之间 的距离矩阵,
表示xi的头坐标和yj尾
坐标之间的距 离矩阵,
表示xi和yj尾坐标之间的距 离矩阵; 将这四个距 离拼接后作一个
非线性变换, 得到xi和yj的位置编码向量Rij, 具体计算过程如公式8 ‑10所示;
其中, dmodel表示多头注意力维度, Wr是可学习参数,
表示向量的拼接运算, d表示四个权 利 要 求 书 2/3 页
3
CN 115545033 A
3
专利 融合词汇类别表征的中文领域文本命名实体识别方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:14:17上传分享