全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210203550.8 (22)申请日 2022.03.02 (71)申请人 上海交通大 学 地址 200240 上海市闵行区东川路80 0号 (72)发明人 马颖华 陈秀真 裘炜程 赖柏希  于海洋 马进 段圣雄  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 专利代理师 胡晶 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/216(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 信息安全知识实体 关系连接预测方法、 系统 及介质 (57)摘要 本发明提供一种信息安全知识实体关系连 接预测方法、 系统及介质, 包括数据处理模块: 构 成图数据, 输入图卷积网络表示模块; 对实体描 述文本数据进行预处理, 将输 出作为Word2Vec表 示模块的输入; 图卷积网络表示模块: 接收图数 据, 训练TextGCN模型, 并生成文本的 图卷积网络 表示向量; Wor d2Vec表示模块: 训练Wor d2Vec模 型, 并生成文本的Word2Vec表示向量; 孪生网络 表示模块: 训练孪生网络模型, 并生成孪生网络 表示向量; 连接判断模块: 根据目标实体对各自 的孪生网络表示向量, 计算两者的欧氏距离, 若 距离小于阈值, 则判断为有连接。 本发明能够准 确判断实体间是否有 连接, 确保补足数据的正确 性、 减少人工分析成本 。 权利要求书2页 说明书8页 附图5页 CN 114579761 A 2022.06.03 CN 114579761 A 1.一种信息安全知识实体关系连接预测系统, 其特 征在于, 包括: 数据处理模块: 将信息安全知识中的文本数据进行词的抽取处理, 采集信息安全知识 的全部文本描述数据并进行数据预处理; 将词存在于实体的文本描述数据之中的关系, 作 为实体节点以及文本词汇节点之 间的关系, 构成图数据; 输出图数据, 该图数据作为图卷积 网络表示模块的输入; 输出预处理后的实体描述文本数据, 该实体描述文本数据作为 Word2Vec表示模块的输入; 图卷积网络表示模块: 接收图数据, 训练TextGCN模型, 并生成文本的图卷积网络表示 向量; Word2Vec表示模块: 接收预处理后的实体描述文本数据, 训练Word2Vec模型, 并生成文 本的Word2Vec表示向量; 孪生网络表示模块: 合并图卷积网络表示向量和Word2Vec表示向量, 训练孪生网络模 型, 并生成孪生网络表示向量; 连接判断模块: 根据目标实体对各自的孪生网络表示向量, 计算两者的欧氏距离, 若距 离小于阈值, 则判断为有连接 。 2.根据权利要求1所述的信 息安全知识实体关系连接预测系统, 其特征在于, 所述数据 处理模块包括: 将单词和句子作为图节 点、 PMI特征和TF ‑IDF特征作为图的边, 构成图数据, 输入图卷积网络表示模块; 对实体描述文本数据进行 预处理包括: 根据空格分词、 停用词删除及低频词删除。 3.根据权利要求1所述的信 息安全知识实体关系连接预测系统, 其特征在于, 所述图卷 积网络表示模块具体包括: 接收图数据, 按照7:2:1划分训练集、 验证集和测试集, 训练 TextGCN模型, 并生成文本的图卷积网络表示向量。 4.根据权利要求1所述的信息安全知识实体关系连接预测系统, 其特征在于, 所述 Word2Vec表示模块中, 训练W ord2Vec模型使用Sk ip‑gram算法。 5.根据权利要求1所述的信 息安全知识实体关系连接预测系统, 其特征在于, 所述孪生 网络表示模块具体包括: 合并图卷积网络表 示向量和Word2Vec表 示向量, 按照7:2:1划分训 练集、 验证集和 测试集, 训练孪生网络模型, 并生成孪生网络表示向量。 6.一种信息安全知识实体关系连接预测方法, 其特 征在于, 包括: 步骤S1: 采集信息安全知识库中的实体英语描述文本, 保存数据库中实体间的现有连 接; 步骤S2: 根据空格分词、 删除停用词、 剔除出现次数小于阈值的低频词, 生成信息安全 语料库; 步骤S3: 训练W ord2Vec模型, 生成每 个单词的词向量; 步骤S4: 给定两类概念及概念对应的所有实体, 将所有词和句作为图的节点、 词存在于 句之中的关系作为图的边, 构成图数据; 步骤S5: 步骤S1中现有连接作 为正样本, 不存在连接的实体对作为非正样本, 从非正样 本中随机 选取与正样本等 量的负样本, 划分训练集、 测试集和验证集; 步骤S6: 将训练集输入图卷积网络, 每个训练轮次计算正负样本的间隔损失函数, 并更 新网络参数; 步骤S7: 输出每个节点的向量, 保存句节点的向量作为每个实体文本的图卷积网络表权 利 要 求 书 1/2 页 2 CN 114579761 A 2示向量; 步骤S8: 根据步骤S3生成的词向量, 计算每 个实体文本的W ord2Vec表示向量; 步骤S9: 对每个实体文本, 将步骤S7和步骤S8生成的图卷积网络表示向量和Word2Vec 表示向量 合并, 划分训练集、 测试集和验证集; 步骤S10: 将训练集输入孪生网络, 每个训练轮次计算样本对的对比损失函数, 并使用 Adam优化器更新网络参数; 步骤S11: 将测试集样本对输入孪生网络, 输出两样本的向量作为孪生网络表示向量。 7.根据权利要求6所述的信 息安全知识实体关系连接预测方法, 其特征在于, 所述步骤 S3具体包括: 使用Python的gensim库、 选择Skip ‑gram算法训练Word2Vec模型, 生成每个单 词的词向量。 8.根据权利要求6所述的信 息安全知识实体关系连接预测方法, 其特征在于, 所述步骤 S5包括: 从非正样本中随机选取与正样本等量的负样本, 按照7:2:1的比例划分训练集、 测 试集和验证集。 9.根据权利要求6所述的信 息安全知识实体关系连接预测方法, 其特征在于, 所述步骤 S9包括: 对每个实体文本, 将图卷积网络表示向量和Word2Vec表示向量合并, 按照 7:2:1的 比例划分训练集、 测试集和验证集。 10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序被处 理器执行时实现权利要求6 至9中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114579761 A 3

.PDF文档 专利 信息安全知识实体关系连接预测方法、系统及介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 信息安全知识实体关系连接预测方法、系统及介质 第 1 页 专利 信息安全知识实体关系连接预测方法、系统及介质 第 2 页 专利 信息安全知识实体关系连接预测方法、系统及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:56:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。