全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210380548.8 (22)申请日 2022.04.12 (71)申请人 国网山东省电力公司济南供电公司 地址 250012 山东省济南市 市中区泺源大 街238号 申请人 国家电网有限公司 (72)发明人 刘震 张晓明 孙占功 李峰  徐涛 李雪松 张国明  (74)专利代理 机构 济南诚智商标专利事务所有 限公司 3710 5 专利代理师 朱晓熹 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/904(2019.01) (54)发明名称 一种资讯知识图谱构建方法和系统 (57)摘要 本发明提出了一种资讯知识图谱构建方法 和系统, 该方法包括收集跨媒体信息, 并确定跨 媒体信息中相应实体之间的关系和实体属性; 跨 媒体信息包括新闻资讯和新闻资讯对应的评论 信息; 将新闻资讯数据中非文本文件转换为文本 数据; 以及获取跨媒体信息文本数据中的实体和 关系; 将所有的文本数据通过编码器抽取出文本 的语义向量, 并计算所述语义向量的哈希值, 合 并哈希值小于预设阈值的新闻资讯和新闻资讯 对应的评论信息; 对哈希值小于预设阈值的新闻 资讯和新闻资讯对应的评论信息进行存储以及 可视化渲染。 基于该方法。 本发明还提出了一种 资讯知识图谱构建系统。 本发明提高了新闻资讯 的质量, 降低了新闻采编人员的工作时间成本 。 权利要求书2页 说明书8页 附图2页 CN 114706999 A 2022.07.05 CN 114706999 A 1.一种资 讯知识图谱构建方法, 其特 征在于, 包括以下步骤: 收集跨媒体信息, 并确定跨媒体信息中相应实体之间的关系和实体属性; 所述跨媒体 信息包括 新闻资讯和新闻资 讯对应的评论信息; 将新闻资讯数据中非文本文件转换为文本数据; 以及获取跨媒体信 息文本数据中的实 体和关系; 将所有的文本数据通过编码器抽取出文本的语义向量, 并计算所述语义向量的哈希 值, 合并哈希值小于预设阈值的新闻资 讯和新闻资 讯对应的评论信息; 对哈希值小于预设阈值的新闻资讯和新闻资讯对应的评论信息进行存储以及可视化 渲染。 2.根据权利要求1所述的一种资讯知识图谱构建方法, 其特征在于, 所述跨媒体信 息中 相应实体包括 新闻资讯中对应的第一实体和评论信息对应的第二实体; 所述第一实体包括文章实体、 话题实体、 发布机构实体; 第二实体包括评论实体。 3.根据权利要求2所述的一种资讯知识图谱构建方法, 其特征在于, 所述跨媒体信 息中 相应实体之间的关系包括文章实体所涉及的话题实体、 文章实体所涉及的发布机构实体; 文章实体所 涉及的评论实体; 评论实体所 涉及的话题实体。 4.根据权利要求2所述的一种资讯知识图谱构建方法, 其特征在于, 所述跨媒体信 息中 实体属性包括: 文章实体的属性、 发布机构实体的属性和评论实体属性; 所述文章实体的属性包括标题、 链接、 内容、 发布时间和发布机构; 所述发布机构实体包括机构名称、 唯一标识、 头像和来源; 所述评论实体属性包括评论内容、 评论时间和评论人。 5.根据权利要求1所述的一种资讯知识图谱构建方法, 其特征在于, 所述将新闻资讯数 据中非文本文件转换为文本数据包括: 将新闻资讯数据中图像数据转换预设尺寸, 然后分割成图像块, 再将图像块展开成相 同尺寸向量, 所述相同尺寸向量经过编解码以及归一化处理之后生成相应的新闻文字描 述; 将新闻资 讯数据中的音频或者视频, 通过长语音技 术识别转换为文字描述。 6.根据权利要求5所述的一种资讯知识图谱构建方法, 其特征在于, 所述将所有的文本 数据通过编码器抽取 出文本的语义向量, 并计算所述语义向量的哈希值的过程包括: 将新闻资讯数据中非文本文件转换的文本数据、 新闻资讯中原本的文本数据以及评论 信息中的文本数据均作为基于注意力机制的双向编码器框架的输入, 抽取文本的语义向 量; 将所述语义向量通过局部敏感哈希算法, 计算最小哈希矩阵中列向量之间的样本相似 度; 如果相似度小于预设阈值, 则合并相似度低于 于预设阈值的文章和评论文本 。 7.根据权利要求6所述的一种资讯知识图谱构建方法, 其特征在于, 所述对哈希值小于 预设阈值的新闻资讯和新闻资讯对应的评论信息进行存储的过程包括: 将哈希值小于预设 阈值的新闻资讯和新闻资讯对应的评论信息按照实体、 关系属 性表格进行数据导入, 并在 Neo4j图数据库进行存 储。 8.根据权利要求7所述的一种资讯知识图谱构建方法, 其特征在于, 所述可视化渲染的权 利 要 求 书 1/2 页 2 CN 114706999 A 2方法包括: 采用基于Vue.js的web前端技术, 通过API接口将知识图谱的实体、 关系进行渲染 和展示。 9.一种资讯知识图谱构建系统, 其特征在于, 包括收集模块、 转换模块、 计算模块和存 储渲染模块; 所述收集模块用于收集跨媒体信 息, 并确定跨媒体信 息中相应实体之间的关系和实体 属性; 所述 跨媒体信息包括 新闻资讯和新闻资 讯对应的评论信息; 所述转换模块用于将新闻资讯数据中非文本文件转换为文本数据; 以及获取跨媒体信 息文本数据中的实体和关系; 所述计算模块用于将所有的文本数据通过编码器抽取出文本的语义向量, 并计算所述 语义向量的哈希值, 合并哈希值小于预设阈值的新闻资 讯和新闻资 讯对应的评论信息; 所述存储渲染模块用于对哈希值小于预设阈值的新闻资讯和新闻资讯对应的评论信 息进行存 储以及可视化 渲染。 10.根据权利要求9所述的一种资讯知识图谱构建系统, 其特征在于, 所述计算模块执 行的过程包括: 将新闻资讯数据中非文本文件转换的文本数据、 新闻资讯中原本的文本数据以及评论 信息中的文本数据均作为基于注意力机制的双向编码器框架的输入, 抽取文本的语义向 量; 将所述语义向量通过局部敏感哈希算法, 计算最小哈希矩阵中列向量之间的样本相似 度; 如果相似度小于预设阈值, 则合并相似度低于 于预设阈值的文章和评论文本 。权 利 要 求 书 2/2 页 3 CN 114706999 A 3

.PDF文档 专利 一种资讯知识图谱构建方法和系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种资讯知识图谱构建方法和系统 第 1 页 专利 一种资讯知识图谱构建方法和系统 第 2 页 专利 一种资讯知识图谱构建方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。