全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210301456.6 (22)申请日 2022.03.25 (71)申请人 高新兴科技 集团股份有限公司 地址 510530 广东省广州市黄埔区科 学城 开创大道 2819号六楼 (72)发明人 何宁秋 潘谷 李阳光 李世云  刘双广  (74)专利代理 机构 广州国鹏知识产权代理事务 所(普通合伙) 44511 专利代理师 葛红 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 笔录数据 的实体识别方法、 装置、 介质及设 备 (57)摘要 本发明公开了一种笔录数据的实体识别方 法, 包括: 构建命名实体识别模型, 所述命名实体 识别模型由膨胀卷积模块IDCNN、 双 向长短时记 忆网络Bilstm、 多头注意力机制模块构成, 通过 所述膨胀卷积 模块对输入数据提取特征信息, 通 过所述双向长短时记忆网络对输入数据提取序 列信息, 通过所述多头注意力机制模块根据所述 特征信息和序列信息计算权值; 获取若干条原始 笔录数据, 对所述原始笔录数据进行预处理; 将 所述预处理后的原始笔录数据划分为训练集、 测 试集以及验证集, 采用训练集对 所述命名实体识 别模型进行训练; 训练好的命名实体识别模型可 用于识别笔录案件的实体信息。 本发 明解决了 现 有技术在对笔录数据进行实体识别时存在的精 度较低的问题。 权利要求书2页 说明书9页 附图4页 CN 114638229 A 2022.06.17 CN 114638229 A 1.一种笔录数据的实体识别方法, 其特 征在于, 包括: 构建命名实体识别 模型, 所述命名实体识别 模型由膨胀卷积模块IDCNN、 双向长短时记 忆网络Bilstm、 多头注意力机制 模块构成, 通过所述膨胀卷积模块对输入数据提取特征信 息, 通过所述双向长短时记忆网络对输入数据提取序列信息, 通过所述多头注意力机制模 块根据所述特 征信息和序列信息计算权值; 获取若干条原 始笔录数据, 对所述原 始笔录数据进行 预处理; 将所述预处理后的原始笔录数据划分为训练集、 测试集以及验证集, 采用训练集对所 述命名实体识别模型进行训练; 训练好的命名实体识别模型可用于识别笔录案件的实体信 息。 2.如权利要求1所述的笔录数据的实体识别方法, 其特征在于, 所述获取若干条原始笔 录数据, 对所述原 始笔录数据进行 预处理包括: 获取若干条原始笔录数据, 对每一条原始笔录数据采用BIOES规则进行标注, 得到已标 注的笔录数据; 根据已标注的笔录数据进行字频统计生成字符ID字典, 以及根据已标注的笔录数据进 行标签频率统计, 生成标签ID字典; 采用JIEBA工具对每条 笔录数据进行分词, 生成每条 笔录数据的分词和分词特 征; 根据所述分词和分词特 征训练每条 笔录数据的词向量和分词特 征向量; 将每条笔录数据中的每一个字符的词向量和分词特 征向量拼接在一 起。 3.如权利要求2所述的笔录数据的实体识别方法, 其特征在于, 所述根据 所述分词和分 词特征训练每条 笔录数据的词向量和分词特 征向量包括: 对每一个分词, 从第一个字符开始进行标记, 第一个字符标记为0, 中间的字符标记为 2, 最后一个字符标记为3; 采用Skip ‑Gram模型根据标记后的分词训练词向量, 得到词向量文件, 向量的维度为 100; 采用TensorFlow框架中的emdedding层根据标记后的分词及分词特征训练分词特征向 量, 得到20维的分词特 征向量。 4.如权利要求1所述的笔录数据的实体识别方法, 其特征在于, 所述对所述采用训练集 对所述命名实体识别模型进行训练包括: 将训练集中的笔录数据划分为大小为32batch的批处理文件, 按照批处理文件的数据 长度的最大值对每一个批处 理文件进行补零操作, 使得每 个批处理文件的数据长度一 致; 对所述批处 理文件进行丢弃处 理, 其中丢弃率 为0.5; 将丢弃处理后的批处理文件输入至膨胀卷积模块IDCNN, 得到每个笔录数据的特征信 息; 将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm, 得到每个笔录数据的 序列信息; 组合所述特 征信息和序列信息, 生成空间序列信息; 将所述空间序列信息输入至所述多头注意力机制模块, 得到每个笔录数据的权重信 息; 将所述权 重信息输入至全连接层, 获取每 个字符对应各个标签的打 分值;权 利 要 求 书 1/2 页 2 CN 114638229 A 2将每个字符对应各个标签的打分值输入至条件随机场层CRF, 得到所述命名实体识别 模型的损失函数L oss以及预测标签; 重复以上步骤 迭代训练若干次。 5.如权利要求4所述的笔录数据的实体识别方法, 其特征在于, 所述将丢弃处理后的批 处理文件输入至膨胀卷积模块 IDCNN, 得到每 个笔录数据的特 征信息包括: 通过所述膨胀卷积模块 IDCNN中的膨胀卷积块对所述批处 理文件提取 特征信息; 使用relu激活函数进行激活, 将四次迭代提取的特征信息拼接在一起, 对拼接后的特 征信息进行丢弃处 理, 其中丢弃率 为0.5。 6.如权利要求4所述的笔录数据的实体识别方法, 其特征在于, 所述将丢弃处理后的批 处理文件输入至双向长短时记 忆网络Bi lstm, 得到每 个笔录数据的序列信息包括: 将丢弃处 理后的批处 理文件输入至双向长短时记 忆网络Bi lstm获取序列信息; 将双向长短时记忆网络Bilstm输出的前向输出和后向输出拼接起来, 连接全连接层进 行分类, 获取序列信息 。 7.如权利要求4所述的笔录数据的实体识别方法, 其特征在于, 所述多头注意力 机制模 块将输入的空间序列信息进行三种线性映射, 得到和空间序列信息同维度的Q,K,V三个矩 阵, 然后用注意力函数 计算每个笔录数据的权值, 其中dk表示神经网络的 隐层单元数; 重复映射及计算若干次, 将若干次输出的权值组合在一起, 得到每个笔录数据的权重 信息。 8.一种笔录数据的实体识别装置, 其特 征在于, 包括: 构建模块, 用于构建命名实体识别模型, 所述命名实体识别模型由膨胀卷积模块 IDCNN、 双向长短时记忆网络Bilstm、 多头注意力机制模块构成, 通过所述膨胀卷积模块对 输入数据提取特征信息, 通过所述双向长短时记忆网络对输入数据提取序列信息, 通过所 述多头注意力机制模块 根据所述特 征信息和序列信息计算权值; 预处理模块, 用于获取若干条原 始笔录数据, 对所述原 始笔录数据进行 预处理; 训练模块, 用于将所述预处理后的原始笔录数据划分为训练集、 测试集以及验证集, 采 用训练集对所述命名实体识别模型进 行训练; 训练好的命名实体识别模型可用于识别笔录 案件的实体信息 。 9.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的笔录数据的实体识 别方法。 10.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 7任一项所述的笔录数据的实体识别方法。权 利 要 求 书 2/2 页 3 CN 114638229 A 3

.PDF文档 专利 笔录数据的实体识别方法、装置、介质及设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 笔录数据的实体识别方法、装置、介质及设备 第 1 页 专利 笔录数据的实体识别方法、装置、介质及设备 第 2 页 专利 笔录数据的实体识别方法、装置、介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:59:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。