专利笔录数据的实体识别方法、装置、介质及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210301456.6 (22)申请日 2022.03.25 (71)申请人高新兴科技集团股份有限公司地址 510530 广东省广州市黄埔区科学城开创大道 2819号六楼 (72)发明人何宁秋　潘谷　李阳光　李世云　刘双广　 (74)专利代理机构广州国鹏知识产权代理事务所(普通合伙) 44511 专利代理师葛红 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称笔录数据的实体识别方法、装置、介质及设备 (57)摘要本发明公开了一种笔录数据的实体识别方法，包括：构建命名实体识别模型，所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成，通过所述膨胀卷积模块对输入数据提取特征信息，通过所述双向长短时记忆网络对输入数据提取序列信息，通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值；获取若干条原始笔录数据，对所述原始笔录数据进行预处理；将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集，采用训练集对所述命名实体识别模型进行训练；训练好的命名实体识别模型可用于识别笔录案件的实体信息。本发明解决了现有技术在对笔录数据进行实体识别时存在的精度较低的问题。权利要求书2页说明书9页附图4页 CN 114638229 A 2022.06.17 CN 114638229 A 1.一种笔录数据的实体识别方法，其特征在于，包括：构建命名实体识别模型，所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成，通过所述膨胀卷积模块对输入数据提取特征信息，通过所述双向长短时记忆网络对输入数据提取序列信息，通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值；获取若干条原始笔录数据，对所述原始笔录数据进行预处理；将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集，采用训练集对所述命名实体识别模型进行训练；训练好的命名实体识别模型可用于识别笔录案件的实体信息。 2.如权利要求1所述的笔录数据的实体识别方法，其特征在于，所述获取若干条原始笔录数据，对所述原始笔录数据进行预处理包括：获取若干条原始笔录数据，对每一条原始笔录数据采用BIOES规则进行标注，得到已标注的笔录数据；根据已标注的笔录数据进行字频统计生成字符ID字典，以及根据已标注的笔录数据进行标签频率统计，生成标签ID字典；采用JIEBA工具对每条笔录数据进行分词，生成每条笔录数据的分词和分词特征；根据所述分词和分词特征训练每条笔录数据的词向量和分词特征向量；将每条笔录数据中的每一个字符的词向量和分词特征向量拼接在一起。 3.如权利要求2所述的笔录数据的实体识别方法，其特征在于，所述根据所述分词和分词特征训练每条笔录数据的词向量和分词特征向量包括：对每一个分词，从第一个字符开始进行标记，第一个字符标记为0，中间的字符标记为 2，最后一个字符标记为3；采用Skip ‑Gram模型根据标记后的分词训练词向量，得到词向量文件，向量的维度为 100；采用TensorFlow框架中的emdedding层根据标记后的分词及分词特征训练分词特征向量，得到20维的分词特征向量。 4.如权利要求1所述的笔录数据的实体识别方法，其特征在于，所述对所述采用训练集对所述命名实体识别模型进行训练包括：将训练集中的笔录数据划分为大小为32batch的批处理文件，按照批处理文件的数据长度的最大值对每一个批处理文件进行补零操作，使得每个批处理文件的数据长度一致；对所述批处理文件进行丢弃处理，其中丢弃率为0.5；将丢弃处理后的批处理文件输入至膨胀卷积模块IDCNN，得到每个笔录数据的特征信息；将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm，得到每个笔录数据的序列信息；组合所述特征信息和序列信息，生成空间序列信息；将所述空间序列信息输入至所述多头注意力机制模块，得到每个笔录数据的权重信息；将所述权重信息输入至全连接层，获取每个字符对应各个标签的打分值；权　利　要　求　书 1/2 页 2 CN 114638229 A 2将每个字符对应各个标签的打分值输入至条件随机场层CRF，得到所述命名实体识别模型的损失函数L oss以及预测标签；重复以上步骤迭代训练若干次。 5.如权利要求4所述的笔录数据的实体识别方法，其特征在于，所述将丢弃处理后的批处理文件输入至膨胀卷积模块 IDCNN，得到每个笔录数据的特征信息包括：通过所述膨胀卷积模块 IDCNN中的膨胀卷积块对所述批处理文件提取特征信息；使用relu激活函数进行激活，将四次迭代提取的特征信息拼接在一起，对拼接后的特征信息进行丢弃处理，其中丢弃率为0.5。 6.如权利要求4所述的笔录数据的实体识别方法，其特征在于，所述将丢弃处理后的批处理文件输入至双向长短时记忆网络Bi lstm，得到每个笔录数据的序列信息包括：将丢弃处理后的批处理文件输入至双向长短时记忆网络Bi lstm获取序列信息；将双向长短时记忆网络Bilstm输出的前向输出和后向输出拼接起来，连接全连接层进行分类，获取序列信息。 7.如权利要求4所述的笔录数据的实体识别方法，其特征在于，所述多头注意力机制模块将输入的空间序列信息进行三种线性映射，得到和空间序列信息同维度的Q,K,V三个矩阵，然后用注意力函数计算每个笔录数据的权值，其中dk表示神经网络的隐层单元数；重复映射及计算若干次，将若干次输出的权值组合在一起，得到每个笔录数据的权重信息。 8.一种笔录数据的实体识别装置，其特征在于，包括：构建模块，用于构建命名实体识别模型，所述命名实体识别模型由膨胀卷积模块 IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成，通过所述膨胀卷积模块对输入数据提取特征信息，通过所述双向长短时记忆网络对输入数据提取序列信息，通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值；预处理模块，用于获取若干条原始笔录数据，对所述原始笔录数据进行预处理；训练模块，用于将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集，采用训练集对所述命名实体识别模型进行训练；训练好的命名实体识别模型可用于识别笔录案件的实体信息。 9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1至7任一项所述的笔录数据的实体识别方法。 10.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1至 7任一项所述的笔录数据的实体识别方法。权　利　要　求　书 2/2 页 3 CN 114638229 A 3

专利 笔录数据的实体识别方法、装置、介质及设备

专利笔录数据的实体识别方法、装置、介质及设备