专利一种融合多粒度信息的中文命名实体识别方法、设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210277553.6 (22)申请日 2022.03.21 (71)申请人哈尔滨工程大学地址 150000 黑龙江省哈尔滨市南岗区南通大街145号 (72)发明人李丽洁　胡双阳　韩启龙　宋洪涛　王也　马志强　张海涛　 (74)专利代理机构哈尔滨市阳光惠远知识产权代理有限公司 2321 1 专利代理师孙莉莉 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 17/18(2006.01) (54)发明名称一种融合多粒度信息的中文命名实体识别方法、设备和介质 (57)摘要本发明提出一种融合多粒度信息的中文命名实体识别方法、设备和介质。所述方法步骤如下： (1)获取领域语料数据集，将数据集进行预处理并分为训练集、测试集、验证集； (2)提取(1)预处理后的语料数据中字符、软词、部首级预训练向量并进行融合； (3)构建融合多粒度信息的中文命名实体识别模型； (4)将(2)所得的数据输入到模型中进行训练； (5)利用(4)所得的识别模型对待识别数据进行处理与计算，得到命名实体识别结果。本发明针对中文命名实体识别存在的不足，通过融合部首级信息利用序列中字符内部固有的语义信息，利用扩展的软词模块获取了词级别的语义信息，将两者融入到字符嵌入向量中，提高了中文命名实体识别的精度。权利要求书2页说明书7页附图3页 CN 114781380 A 2022.07.22 CN 114781380 A 1.一种融合多粒度信息的中文命名实体识别方法，其特征在于，具体包括以下步骤：步骤1：获取领域语料数据集，将数据集进行预处理并分为训练集、测试集和验证集；步骤2：提取步骤1预处理后的语料数据中字符、软词和部首级预训练向量进行向量融合，并构建融合多粒度信息的中文命名实体识别模型；步骤3：将步骤2所得的数据输入到模型中进行训练；步骤4：利用步骤3所得的融合多粒度信息的中文命名实体识别模型对待识别数据进行处理与计算，得到命名实体识别结果。 2.根据权利要求1所述的方法，其特征在于，所述步骤1具体包括以下步骤：步骤1.1：识别出句子级语料数据中的命名实体，并将其标注为预定义的类型，所述类型包括人名、地名和组织名；步骤1.2：将标注后的结果以BMES O标记方式划分为字符级语料数据，其形式为：字符实体位置‑所属预定义类型；步骤1.3：将预处理好的数据集以一定比例划分为训练集、测试集和验证集。 3.根据权利要求2所述的方法，其特征在于，所述步骤2具体包括以下步骤：步骤2.1：对于序列中的字符，使用预训练语言模型将所述字符序列一一进行字符映射，并将输入序列中的每一个字符编码为低维稠密嵌入向量；步骤2.2：对于序列中字符对应的候选词：以外部词典为基础建立一颗词汇查找树，匹配句子中字符对应的候选词，并构建扩展的软词集，接着使用权重融合策略将字符对应的扩展软词集进行加权，得到字符对应的词级向量；步骤2.3：对于序列中字符对应的部首级特征：为常用汉字构建一个部首级特征查找表，并将特征表示为预训练的嵌入向量，使用卷积神经网络提取部首级特征嵌入向量；步骤2.4：依次拼接字符、软词、部首级特征向量；步骤2.5：将数据集中的每个句子执行填充/截断操作处理为固定长度；对于长度超过规定长度的句子，舍弃超过规定长度的部分；对于长度不足规定长度的句子，执行填充操作，补齐到规定长度；步骤2.6：将固定长度的句子以Batch_Size大小为一组作为模型的输入， B atch中的每一条子序列都是一个句子；步骤2.7：对所述Batch中的特征向量进行隐藏层前向LSTM编码和反向LSTM编码，并将前向和反向隐藏向量进行向量拼接，获得所述数据的双向特征向量。 4.根据权利要求3所述的方法，其特征在于，所述步骤2.2具体包括以下步骤：步骤2.2.1：遍历外部词典，构建一颗词汇前缀查找树；步骤2.2.2：使用词汇查找树匹配句子中的候选词，并按照字符在候选词中所处的位置为字符构建软词集合；步骤2.2.3：统计候选词在语料数据中出现的总次数，以及候选词在软词集中各个位置出现的次数，得到其在软词集各个位置的权重；步骤2.2.4：将字符对应的所有位置的候选词进行加权，并拼接软词级向量。 5.根据权利要求 4所述的方法，其特征在于，所述步骤2.3具体包括以下步骤：步骤2.3.1：为常用汉字构建一个部首级特征查找表，其部首级特征包括：字符的简体/ 繁体部首、字符的构造组成和字符的书写顺序序列，其形式为：字符 ‑部首‑构造组成 ‑书写权　利　要　求　书 1/2 页 2 CN 114781380 A 2顺序序列；步骤2.3.2：查找预训练的嵌入向量查找表，并将字符对应的每个部首级特征表示为维度为d的嵌入向量，此时字符对应的部首级特征表示为一个嵌入向量矩阵；步骤2.3.3：固定嵌入矩阵的维度为对于长度超过k的矩阵，进行截断操作取前k个特征；对于长度不足k的矩阵，进行随机初始化填充长度至k；步骤2.3.4：对固定维度的部首级特征嵌入矩阵进行x次连续的一维卷积并进行最大池化操作，得到一个d维的嵌入向量表示字符对应的部首级特征。 6.根据权利要求5所述的方法，其特征在于，所述步骤3具体包括以下步骤：步骤3.1：对隐藏层中双向特征向量进行迭代更新计算；步骤3.2：将结果输入到 CRF层中，迭代更新发射概率和转移概率，计算最大得分序列；步骤3.3：更新并保存训练后模型的参数。 7.根据权利要求6所述的方法，其特征在于，所述步骤4具体包括以下步骤：步骤4.1：将待识别中文文本序列以字符为单位作为模型的输入；步骤4.2：计算并输出实体识别结果。 8.根据权利要求4所述的方法，其特征在于，所述统计候选词在语料数据中出现的总次数中的语料数据指训练集+测试集。 9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1 ‑8任一项所述方法的步骤。 10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1 ‑8任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114781380 A 3

专利 一种融合多粒度信息的中文命名实体识别方法、设备和介质

专利一种融合多粒度信息的中文命名实体识别方法、设备和介质