全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221021873 6.0 (22)申请日 2022.02.28 (71)申请人 广州启生信息技 术有限公司 地址 510623 广东省广州市天河区珠 江东 路13号1101室 (仅限办公) (72)发明人 欧锦华 李晓鹏 田丹 高瑞雪  (51)Int.Cl. G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (54)发明名称 一种主题脉落的生成方法和系统 (57)摘要 本发明公开了一种主题脉落的生成方法和 系统, 包括获取话题集合, 构建主题的信息 结构, 抽取话题文本的基础信息, 生 成话题文本的多角 度描述信息, 根据基础信息和多角度描述信息构 建图谱网络, 对图谱网络进行主题梳理, 获取有 效话题有序集合, 根据有效话题有序集合生成主 题脉落。 根据上述技术方案, 可 以将同一个话题 下的文本内容按相同事件准确归类, 并分析出事 件话题的先后时间顺序以形成主题脉落, 实现过 程清晰、 灵活、 高效、 具有可扩 展性。 权利要求书2页 说明书10页 附图5页 CN 114579733 A 2022.06.03 CN 114579733 A 1.一种主题脉落的生成方法, 其特 征在于, 包括以下步骤: 获取话题集 合; 构建主题的信 息结构, 其中, 一个主题的所述信息结构包括多个话题, 其中一个所述话 题包括多个话题文本; 抽取所述话题文本的基础信息; 生成所述 话题文本的多角度描述信息; 根据所述基础信息和多角度描述信息构建图谱网络; 对所述图谱网络进行主题梳理, 获取有效话题有序集 合; 根据所述有效话题有序集 合生成主题脉落。 2.根据权利要求1所述的主题脉落的生成方法, 其特征在于, 所述生成所述话题文本的 多角度描述信息包括: 从所述话题文本中抽取三元组后, 选择有效的三元组; 其中, 所述 三元组的元 素包括主语、 谓语和宾语。 3.根据权利要求1所述的主题脉落的生成方法, 其特征在于, 所述主题的图谱 网络结构 包括: 标题 节点、 元素节点、 节点路径; 其中, 节点路径为标题与元 素节点的间的关系; 所述根据 所述基础信 息和多角度描述信 息构建图谱 网络, 指将所述基础信 息和多角度 描述信息的元 素填入所述图谱网络的结构。 4.根据权利要求1所述的主题脉落的生成方法, 其特 征在于, 所述主题梳理包括: 通过图谱路径搜索获取关联的话题集 合; 对所述关联话题进行关联度计算, 获取有效话题集 合; 对所述有效话题集 合进行时间过 滤; 根据所述时间对所述有效话题进行排序, 生成有效话题有序集 合; 对所述有效话题有序集 合进行主题归类, 生成主题脉落。 5.根据权利要求1所述的主题脉落的生成方法, 其特征在于, 所述话题文本的基础信 息 包括: 地点、 对象名称, 其中对象名称包括人名、 机构名。 6.根据权利要求2所述的主题脉落的生成方法, 其特征在于, 所述抽取三元组 的步骤包 括: 对话题文本进行分词处 理, 获取文本关键词, 所述关键词包括动词和名词; 从所述关键词中提取动词, 作为 三元组的谓语; 以所述谓语为标准, 上 下文查找名词确定主语; 以所述谓语为标准, 上 下文查找名词确定宾语。 7.根据权利要求6所述的主题脉落的生成方法, 其特征在于, 所述选择有 效的三元组包 括: 量化所述三元组, 获取 所述三元组分值; 根据所述 三元组积分进行排序, 过 滤可淘汰三元组。 8.根据权利要求6所述的主题脉落的生成方法, 其特征在于, 所述上下文查找名词确定 主语还包括对所述主语进行完整词义处 理; 所述上下文查找名词确定宾语还 包括对所述宾语进行完整词义处 理。 9.一种主题脉落的生成系统, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 114579733 A 2话题获取模块: 用于获取话题集 合, 输出所述话题集合元素的内容; 信息结构处理模块: 用于处理所述话题集合元素的文本内容, 对所述文本内容进行信 息结构化的处理, 将所述文本内容解析为话题文本, 根据所述话题文本输出基础信息和多 角度描述信息; 图谱网络应用模块: 根据 所述信息结构处理模块的输出内容, 构建图谱 网络, 输出有效 话题有序集合; 所述图谱网络结构包括: 标题节点、 元素节点、 节点路径; 其中, 节点路径为 标题与元 素节点的间的关系; 主题脉落输出模块: 根据所述有效话题有序集 合生成主题脉落。 10.根据权利要求10所述的主题脉落的生成系统, 其特 征在于, 所述信息处 理模块包括: 信息提取子模块: 用于抽取话题文本的基础信息, 所述基础信息包括 地点、 对象名称; 三元组处理子模块: 用于从话题文本中抽取、 完善三元组, 所述三元组的元素包括主 语、 谓语和宾语, 所述完 善三元组包括补齐三元组的内容、 筛除无效三元组; 所述图谱网络应用模块包括: 图谱网络生成模块: 根据所述信 息处理模块输出的基础信 息和多角度描述信 息和所述 图谱网络的结构, 生成图谱网络; 图谱网络计算模块: 计算指定话题的关联度, 输出有效话题集 合; 集合梳理模块: 用于对所述图谱 网络计算模块输出的所述有 效话题集合进行时间过滤 和排序, 输出有效话题有序集 合。权 利 要 求 书 2/2 页 3 CN 114579733 A 3

.PDF文档 专利 一种主题脉落的生成方法和系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种主题脉落的生成方法和系统 第 1 页 专利 一种主题脉落的生成方法和系统 第 2 页 专利 一种主题脉落的生成方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。