全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210984525.8 (22)申请日 2022.08.17 (71)申请人 国家国防科技工业局军工项目审核 中心 地址 100032 北京市西城区车公庄大街12 号 申请人 中国信息通信研究院 (72)发明人 田林涛 陆平 严真旭 张峰  张斌 廖大中 赵亿锌 张春宇  (74)专利代理 机构 北京恒泰铭睿知识产权代理 有限公司 1 1642 专利代理师 苏天功 (51)Int.Cl. G06F 16/174(2019.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 军工科研生产数据管理方法及系统 (57)摘要 本申请涉及相似性智能判别的领域, 其具体 地公开了一种军工科研生产数据管理方法及系 统, 其通过人工智能技术的深度神经网络模型来 从第一军工科研生产文本数据和第二军工科研 生产文本数据中分别提取出具有词序列和段序 列的全局性隐含关联特征, 进一步融合所述词序 列和所述段序列的特征信息来进行所述第一军 工科研生产文本数据和所述第二军工科研生产 文本数据的相似性判断, 以避免了传统的处理方 式造成的数据量局限性和误差难以控制的问题。 权利要求书4页 说明书15页 附图5页 CN 115408351 A 2022.11.29 CN 115408351 A 1.一种军工科研生产数据管理方法, 其特 征在于, 包括: 获取待判别的第一军工科研生产文本数据和第二军工科研生产文本数据; 将所述第一军工科研生产文本数据和所述第二军工科研生产文本数据进行分词处理 后通过包 含嵌入层的上 下文编码器以得到多个第一词特 征向量和多个第二词特 征向量; 将所述多个第一词特征向量进行二维排列为第一词特征矩阵后通过作为词粒度特征 提取器的第一卷积神经网络以得到第一全文语义特 征矩阵; 将所述多个第二词特征向量进行二维排列为第二词特征矩阵后通过作为词粒度特征 提取器的第二卷积神经网络以得到第二全文语义特 征矩阵; 对所述第一军工科研生产文本数据和所述第二军工科研生产文本数据分别进行分段 处理以得到对应于所述第一军工科研生产文本数据的多个第一段和对应于所述第二军工 科研生产文本数据的多个第二段; 将所述多个第一段中各个第一段和所述多个第二段中各个第二段分别通过包含嵌入 层的双向长短期记忆神经网络模型以得到多个第一段语义特征向量和多个第二段语义特 征向量; 对所述多个第一段语义特征向量中各个第一段语义特征向量和对所述多个第二段语 义特征向量中各个第二段语义特征向量进行全局池化处理以得到第一段语义输入向量和 第二段语义输入向量; 将所述第一段语义输入向量和所述第二段语义输入向量分别通过包含一维卷积层的 序列编码器以得到第一全文语义特 征向量和第二全文语义特 征向量; 将所述第一全文语义特征矩阵与 所述第一全文语义特征向量进行相乘以得到第 一段‑ 词多粒度全文语义特征向量, 且将所述第二全文语义特征矩阵与所述第二全文语义特征向 量进行相乘以得到第二段 ‑词多粒度全文语义特 征向量; 融合所述第一段 ‑词多粒度全文语义特征向量和所述第二段 ‑词多粒度全文语义特征 向量以得到分类特 征向量; 以及 将所述分类特征向量通过分类器以得到分类结果, 所述分类结果用于表示所述第 一军 工科研生产文本数据和所述第二军工科研生产文本数据是否为重复文本数据。 2.根据权利要求1所述的军工科研生产 数据管理方法, 其特征在于, 所述将所述第 一军 工科研生产文本数据和所述第二军工科研生产文本数据进行分词处理后通过包含嵌入层 的上下文编码器以得到多个第一词特 征向量和多个第二词特 征向量, 包括: 对所述第一军工科研生产文本数据和所述第二军工科研生产文本数据进行分词处理 以将所述第一军工科研生产文本数据和所述第二军工科研生产文本数据分别转化为由多 个词组成的词序列以获得第一词序列和第二词序列; 使用所述上下文编码器的嵌入层将所述第一词序列和所述第二词序列中各个词分别 映射到词向量以获得第一词向量的序列和第二词向量的序列; 以及 使用所述上下文编码器的转化器对所述第一词向量的序列和所述第二词向量的序列 分别进行基于全局的上下文语义编码以获得所述多个第一词 特征向量和所述多个第二词 特征向量。 3.根据权利要求2所述的军工科研生产 数据管理方法, 其特征在于, 所述将所述多个第 一词特征向量进行二维排列为第一词 特征矩阵后通过作为词 粒度特征提取器的第一卷积权 利 要 求 书 1/4 页 2 CN 115408351 A 2神经网络以得到第一全文语义特 征矩阵, 包括: 所述第一卷积神经网络的各层 在层的正向传递中对输入数据分别进行: 对输入数据进行 卷积处理以得到卷积特 征图; 对所述卷积特 征图进行基于局部通道维度的均值池化以得到池化特 征图; 以及 对所述池化特 征图进行非线性激活以得到 激活特征图; 其中, 所述第一卷积神经网络的最后一层的输出为所述第一全文语义特征矩阵, 所述 第一卷积神经网络的第一层的输入为所述第一词特 征矩阵。 4.根据权利要求3所述的军工科研生产 数据管理方法, 其特征在于, 所述将所述多个第 二词特征向量进行二维排列为第二词 特征矩阵后通过作为词 粒度特征提取器的第二卷积 神经网络以得到第二全文语义特 征矩阵, 包括: 所述第二卷积神经网络的各层 在层的正向传递中对输入数据分别进行: 对输入数据进行 卷积处理以得到卷积特 征图; 对所述卷积特 征图进行基于局部通道维度的均值池化以得到池化特 征图; 以及 对所述池化特 征图进行非线性激活以得到 激活特征图; 其中, 所述第二卷积神经网络的最后一层的输出为所述第二全文语义特征矩阵, 所述 第二卷积神经网络的第一层的输入为所述第二词特 征矩阵。 5.根据权利要求4所述的军工科研生产 数据管理方法, 其特征在于, 所述对所述多个第 一段语义特征向量中各个第一段语义特征向量和对所述多个第二段语义特征向量中各个 第二段语义特征向量进行全局池化处理以得到第一段语义输入向量和第二段语义输入向 量, 包括: 对所述多个第一段语义特征向量中各个第一段语义特征向量进行全局均值池化以得 到对应于各个第一段语义特 征向量的第一段语义特 征向量; 将所述对应于各个第一段语义特征向量的第一段语义特征向量排列为所述第一段语 义输入向量; 对所述多个第二段语义特征向量中各个第二段语义特征向量进行全局均值池化以得 到对应于各个第二段语义特 征向量的第二段语义特 征向量; 和 将所述对应于各个第二段语义特征向量的第二段语义特征向量排列为所述第二段语 义输入向量。 6.根据权利要求5所述的军工科研生产 数据管理方法, 其特征在于, 所述将所述第 一段 语义输入向量和所述第二段语义输入向量分别通过包含一维卷积层的序列编码器以得到 第一全文语义特 征向量和第二全文语义特 征向量, 包括: 使用所述序列编码器的全连接层以如下公式分别对所述第一段语义输入向量和所述 第二段语义输入向量进行全连接编码以提取出所述输入向量中各个位置的特征值的高维 隐含特征, 其中, 所述公式为: 其中X是所述输入向量, Y是输出向量, W 是权重矩阵, B是偏置向量, 表示矩阵乘; 使用所述序列编码器的一维卷积层以如下公式分别对所述第一段语义输入向量和所 述第二段语义输入向量进行一维卷积编码以提取出所述输入向量中各个位置的特征值间 的高维隐含关联 特征, 其中, 所述公式为:权 利 要 求 书 2/4 页 3 CN 115408351 A 3

PDF文档 专利 军工科研生产数据管理方法及系统

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 军工科研生产数据管理方法及系统 第 1 页 专利 军工科研生产数据管理方法及系统 第 2 页 专利 军工科研生产数据管理方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。