全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210277553.6 (22)申请日 2022.03.21 (71)申请人 哈尔滨工程大 学 地址 150000 黑龙江省哈尔滨市南岗区南 通大街145号 (72)发明人 李丽洁 胡双阳 韩启龙 宋洪涛  王也 马志强 张海涛  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 孙莉莉 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 17/18(2006.01) (54)发明名称 一种融合多粒度信息的中文命名实体识别 方法、 设备和介质 (57)摘要 本发明提出一种融合多粒度信息的中文命 名实体识别方法、 设备和介质。 所述方法步骤如 下: (1)获取领域语料数据集, 将数据集进行预处 理并分为训练集、 测试集、 验证集; (2)提取(1)预 处理后的语料数据中字符、 软词、 部首级预训练 向量并进行融合; (3)构建融合多粒度信息的中 文命名实体识别模型; (4)将(2)所得的数据输入 到模型中进行训练; (5)利用(4)所得的识别模型 对待识别数据进行处理与计算, 得到命名实体识 别结果。 本发 明针对中文命名实体识别存在的不 足, 通过融合部首级信息利用序列中字符内部固 有的语义信息, 利用扩展的软词模块获取了词级 别的语义信息, 将两者融入到字符嵌入向量中, 提高了中文 命名实体识别的精度。 权利要求书2页 说明书7页 附图3页 CN 114781380 A 2022.07.22 CN 114781380 A 1.一种融合多粒度信息的中文命名实体识别方法, 其特 征在于, 具体包括以下步骤: 步骤1: 获取 领域语料 数据集, 将数据集进行 预处理并分为训练集、 测试集和验证集; 步骤2: 提取步骤1预处理后的语料数据中字符、 软词和部首级预训练向量进行向量融 合, 并构建融合多粒度信息的中文命名实体识别模型; 步骤3: 将步骤2所 得的数据输入到模型中进行训练; 步骤4: 利用步骤3所得的融合多粒度信 息的中文命名实体识别模型对待识别数据进行 处理与计算, 得到命名实体识别结果。 2.根据权利要求1所述的方法, 其特 征在于, 所述 步骤1具体包括以下步骤: 步骤1.1: 识别出句子级语料数据中的命名实体, 并将其标注为预定义的类型, 所述类 型包括人名、 地名和组织名; 步骤1.2: 将标注后的结果以BMES O标记方式划分为字符级语料数据, 其形式为: 字符实 体位置‑所属预定义类型; 步骤1.3: 将预处 理好的数据集以一定比例划分为训练集、 测试集和验证集。 3.根据权利要求2所述的方法, 其特 征在于, 所述 步骤2具体包括以下步骤: 步骤2.1: 对于序列中的字符, 使用预训练语言模型将所述字符序列一一进行字符映 射, 并将输入序列中的每一个字符编码为低维稠密嵌入向量; 步骤2.2: 对于序列中字符对应的候选词: 以外部词典为基础建立一颗词汇查找树, 匹 配句子中字符对应的候选词, 并构建扩展的软词集, 接着使用权重融合策略将字符对应的 扩展软词集进行加权, 得到 字符对应的词级向量; 步骤2.3: 对于序列中字符对应的部首级特征: 为常用汉字构建一个部首级特征查找 表, 并将特 征表示为预训练的嵌入向量, 使用卷积神经网络提取部首级特 征嵌入向量; 步骤2.4: 依次拼接 字符、 软词、 部首级特 征向量; 步骤2.5: 将数据集中的每个句子执行填充/截断操作处理为固定长度; 对于长度超过 规定长度的句子, 舍弃超过规定长度 的部分; 对于长度不足规定长度的句子, 执行填充操 作, 补齐到规定 长度; 步骤2.6: 将固定长度的句子以Batch_Size大小为一组作为模型的输入, B atch中的每 一条子序列都是一个句子; 步骤2.7: 对所述Batch中的特征向量进行隐藏层前向LSTM编码和反向LSTM编码, 并将 前向和反向隐藏向量进行向量 拼接, 获得 所述数据的双向特 征向量。 4.根据权利要求3所述的方法, 其特 征在于, 所述 步骤2.2具体包括以下步骤: 步骤2.2.1: 遍历外 部词典, 构建一颗词汇前缀 查找树; 步骤2.2.2: 使用词 汇查找树匹配句子中的候选词, 并按照字符在候选词中所处的位置 为字符构建软词集 合; 步骤2.2.3: 统计候选词在语料数据中出现的总次数, 以及候选词在软词集中各个位置 出现的次数, 得到其在软词集各个位置的权 重; 步骤2.2.4: 将字符对应的所有位置的候选词进行加权, 并拼接软词级向量。 5.根据权利要求 4所述的方法, 其特 征在于, 所述 步骤2.3具体包括以下步骤: 步骤2.3.1: 为常用汉字构 建一个部首级特征查找表, 其部首级特征包括: 字符的简体/ 繁体部首、 字符的构造组成和 字符的书写顺序序列, 其形式为: 字符 ‑部首‑构造组成 ‑书写权 利 要 求 书 1/2 页 2 CN 114781380 A 2顺序序列; 步骤2.3.2: 查找预训练的嵌入向量查找表, 并将字符对应的每个部首级特征表示为维 度为d的嵌入向量, 此时字符对应的部首级特 征表示为一个嵌入向量矩阵; 步骤2.3.3: 固定嵌入矩阵的维度为 对于长度超过k的矩阵, 进行截断操作取前k个 特征; 对于长度不足k的矩阵, 进行随机初始化 填充长度至k; 步骤2.3.4: 对固定维度的部首级特征嵌入矩阵进行x次连续的一维卷积并进行最大池 化操作, 得到一个d维的嵌入向量表示字符对应的部首级特 征。 6.根据权利要求5所述的方法, 其特 征在于, 所述 步骤3具体包括以下步骤: 步骤3.1: 对隐藏层中双向特 征向量进行迭代更新计算; 步骤3.2: 将结果输入到 CRF层中, 迭代更新发射 概率和转移概 率, 计算最大得分序列; 步骤3.3: 更新并保存训练后模型的参数。 7.根据权利要求6所述的方法, 其特 征在于, 所述 步骤4具体包括以下步骤: 步骤4.1: 将待识别中文 文本序列以字符为单位作为模型的输入; 步骤4.2: 计算并输出实体识别结果。 8.根据权利要求4所述的方法, 其特征在于, 所述统计候选词在语料数据中出现的总次 数中的语料 数据指训练集+测试集。 9.一种电子设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1 ‑8任一项所述方法的步骤。 10.一种计算机可读存储介质, 用于存储计算机指令, 其特征在于, 所述计算机指令被 处理器执行时实现权利要求1 ‑8任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114781380 A 3

.PDF文档 专利 一种融合多粒度信息的中文命名实体识别方法、设备和介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合多粒度信息的中文命名实体识别方法、设备和介质 第 1 页 专利 一种融合多粒度信息的中文命名实体识别方法、设备和介质 第 2 页 专利 一种融合多粒度信息的中文命名实体识别方法、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。