全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210957084.2 (22)申请日 2022.08.10 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 孙国梓 陈赛 李华康 刘文杰  黄国耀  (74)专利代理 机构 南京正联知识产权代理有限 公司 32243 专利代理师 杭行 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于bert和字词向量结合的中文命名 实体识别方法 (57)摘要 一种基于bert和字词向量结合的中文命名 实体识别方法, 通过对语言模型进行预训练和微 调操作提升模型的向量表征能力, 之后将bert形 成的字向量和Word2vec形成的词向量进行拼接 并使用BiGRU和IDCNN双通道神经网络模型提取 特征, 加入词性特征后有效提高命名实体识别效 果。 充分挖掘文本的语义信息, 充分提取字的上 下文信息, 从而产生高效的字向量表示; 增强字 向量的表征能力, 解决短文本上下文中单个字语 义信息提取不足的问题, 最终提高识别准确率; 能够解决循环神经网络丢失局部信息的问题, 能 够提取到 更多重要的特征信息; 可以使重要特征 赋予更高的权重从而提取更重要的特征以提高 最终的识别性能; 能够提高实体分类效果, 更好 的识别实体的类别从而提高实体识别准确率。 权利要求书2页 说明书8页 附图5页 CN 115310448 A 2022.11.08 CN 115310448 A 1.一种基于bert和字词向量结合的中文命名实体识别方法, 构建命名实体识别模型, 该模型包括词嵌入层, BiGRU和IDCNN特征提取层, Self ‑Attention层和CRF层, 其特征在于: 所述方法包括以下步骤: 步骤1、 获取文本数据作 为训练语料对语言模型Word2vec进行预训练, 训练完后得到词 向量查找表; 使用文本数据对BERT模型进行pre ‑training; 步骤2、 对文本数据进行 预处理和数据标注操作; 步骤3、 将预处 理完并标注好的数据输入ber t模型中, 得到每 个字的字向量表示; 步骤4、 将文本数据经 过分词, 通过W ord2vec的词向量表得到每 个词对应的词向量; 步骤5、 将步骤3和步骤4得到的字词向量进行拼接, 得到每个字对应的最终的融合的字 向量; 步骤6、 将文本数据进行分词得到每 个词的词性特 征并编码为对应的词性向量; 步骤7、 将步骤5融合得到的向量表示输入BiGRU层, 循环神经网络计算如下: σ(Wi*[ht‑1,Xt) rt=σ(Wr*[ht‑1,xt]) 其中, σ 是sigmod函数, ·是点积, xt表示t时刻的输入向量, ht是隐藏状态也是该时刻的 输出向量, 包含前面t时刻所有的有效信息。 zt是一个更新门, 控制信 息流入下一个时刻, rt 是一个重置门, 控制信息丢失, 二者共同决定隐藏状态的输出; 将融合后的向量输入IDCNN 层, 迭代膨胀卷积神经网络IDCNN由多层不同膨胀宽度的DCNN网络组成; 最终得到IDCNN层 的向量表示; 步骤8、 将BiGRU层的隐藏向量与IDCNN层的输出向量进行拼接操作, 得到新的向量表 示; 步骤9、 将步骤6得到的词性向量与步骤8得到的向量进行拼接操作; 步骤10、 将步骤9得到的向量输入到多头注意力机制中, 使用自注意力机制学习句子 中 任意两个字符之间的依赖关系, 并捕捉句 子的内部结构信息。 经过注意力层的计算得到一 个具有更好表征能力的向量; 步骤11、 经过注意力层的输出结果经过线性层的映射之后输入到CRF层计算输入文本 所有可能的标签序列的概 率, 选择概 率最大的标签序列 作为最终的预测标签。 2.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 步骤1 中, 获取文本数据形成文档b.txt; 对文档b.txt进行数据预处理, 形成分词 后的词语集; 使用分词 词语集对W ord2vec的sk ip‑gram模型 预训练, 得到词向量 查找表。 3.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 步骤1中, 加载预训练好的BERT模型, 加载bert _config.json、 bert _model.ckpt、 vocab.txt三个文件; 根据Mask  Language  Model任务将获取到的文本数据作为训练语料对 bert进行pre ‑training。 4.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 步骤2中, 预处 理包括: 过 滤掉特殊字符和数据标注。权 利 要 求 书 1/2 页 2 CN 115310448 A 25.根据权利要求4所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 数据标注方式采用的是BIO, B指的是一个实体的开始字符, I指的是一个实体的 非开始字符, O为非 实体标签。 6.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 步骤4中, 将文本数据进 行全模式分词, 得到句子中所有 可能形成词的词语集; 之 后使用Word2vec词向量查找表得到每个字对应的词向量; 将 每个字的候选词向量进行融合 形成一个词向量, 得到每 个字对应的最终的词向量表示。 7.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 步骤6中, 首先将文本数据进 行分词, 得到 分词后的词语, 通过词性查找表得到每 个词对应的词性, 之后使用one ‑hot编码方式将词性编码为词性向量, 并将词性向量与该词 对应的词向量进行拼接得到含有词性的词向量。 8.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 步骤9中, 首先将步骤6得到的向量输入到一个Dense层进行线性转换得到新的表 示, 同时将步骤8得到的向量输入到一个Dense层进行线性映射得到一个相同维度的表示, 之后将两个 变量进行向量 拼接操作。 9.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 步骤11中, 设存在句子S={x1,x2,...xn}, 预测的标签序列为Y={y1,y2,...yn}; CRF层标签标记的过程如下: oi=Wh′i+b 其中, h′i为经过自注意力层后形成的新的向量表示, W为网络层的权重参数矩阵, b为偏 移量矩阵, oi表示的是第i个字对应的各标签得分值, 表示第i个字xi对应标签为yi的得 分, 表示标签yi‑1和yi之间的转移分数矩阵, sc ore(S,Y)为句子S对 应的标签序列Y的 总得分, Ys表示给定句子S的所有候选标签序列, 表示取所有候选标签序列中得分最 高的 那个序列并将之作为该句子的最终输出序列。 10.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法, 其 特征在于: 步骤11中, CRF层使用viterbi算法计算标签序列, 以对数似然函数作为损 失函 数, 真实标签序列的概 率由以下公式计算: 其中, 表示真实的标签序列; 假设有N个训练样本, 对应的损失函数L计算公式如下: 权 利 要 求 书 2/2 页 3 CN 115310448 A 3

PDF文档 专利 一种基于bert和字词向量结合的中文命名实体识别方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于bert和字词向量结合的中文命名实体识别方法 第 1 页 专利 一种基于bert和字词向量结合的中文命名实体识别方法 第 2 页 专利 一种基于bert和字词向量结合的中文命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。