全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210191932.3 (22)申请日 2022.02.28 (71)申请人 广州启生信息技 术有限公司 地址 510623 广东省广州市天河区珠 江东 路13号1101室 (仅限办公) (72)发明人 欧锦华 李晓鹏 田丹 高瑞雪  (51)Int.Cl. G06F 16/36(2019.01) G06F 40/258(2020.01) G06F 40/279(2020.01) (54)发明名称 一种图谱网络的生成方法和装置 (57)摘要 本发明公开了一种图谱网络的生 成方法, 包 括以下步骤: 定义图谱网络的结构, 结构包括标 题节点、 元素节点和节点路径; 其中, 节点路径为 标题节点与元素节点之间的关系元素; 获取信息 来源文本, 对信息来源文本进行解析, 获取文本 标题和文本内容; 对文本内容进行结构化处理, 生成图谱网络。 根据上述技术方案, 可 以提高生 成图谱网络的灵活度, 增加了扩展性, 使对各种 信息进行关联时, 内容更清晰、 准确、 实现过程更 灵活高效。 权利要求书2页 说明书9页 附图3页 CN 114860946 A 2022.08.05 CN 114860946 A 1.一种图谱网络的生成方法, 其特 征在于, 包括以下步骤: 定义图谱网络的结构, 所述结构包括标题节点、 元素节点和节点路径; 其中, 所述节点 路径为标题 节点与元 素节点之间的关系元 素; 获取信息来源文本, 对所述信息来源文本进行解析, 获取文本标题和文本内容; 对所述文本内容进行结构化处理, 生成图谱网络, 其中所述结构化处理与所述图谱网 络的结构匹配。 2.根据权利要求1所述的图谱网络的生成方法, 其特 征在于, 所述对所述文本内容进行结构化处理前, 解析所述文本内容, 获得基本元素和主题三 元组, 所述主题三元组包括: 三元组主语、 三元组谓语、 三元组宾语; 所述基本元 素包括: 主题时间、 主题地区、 主题人物机构名称; 配置所述关系元 素范围, 包括: 人物、 国家、 省份、 城市、 三元组主宾语、 三元组谓语。 3.根据权利要求2所述的图谱网络的生成方法, 其特 征在于, 所述结构化处 理包括: 将所述文本标题匹配为标题 节点; 将所述基本元 素匹配为元 素节点; 将所述三元组主语、 三元组宾语匹配为元 素节点; 从所述关系元 素范围中选择 元素节点与标题 节点之间的节点路径。 4.根据权利要求2所述的图谱 网络的生成方法, 其特征在于, 所述解析所述文本内容包 括, 提取时间、 提取地 点、 提取人物机构名称; 其中, 所述提取时间包括: 标准时间词提取、 特殊时间词提取、 时间补全和标记时间边 界。 5.根据权利要求4所述的图谱网络的生成方法, 其特征在于, 所述提取地点包括: 词表 搜索提取地名、 地区补全处 理; 其中, 执行所述提取地区前, 构造地 点结构树, 用于所述 地区补全处 理。 6.根据权利要求4所述的图谱 网络的生成方法, 其特征在于, 所述提取人物机构名称包 括: 准备文本内容、 标记特 征位置、 训练BERT模型、 使用所述BERT模型获取 人物机构名称。 7.根据权利要求 4所述的图谱网络的生成方法, 其特 征在于; 所述标记时间边界指: 获取一个所述文本内容中的一个或多个时间, 提取一个所述主 题包括的时间集合, 从 中确定最大时间, 确定最小时间, 标记所述最大时间和所小时间为时 间边界。 8.一种图谱网络的生成装置, 其特 征在于, 包括: 图谱网络结构确定模块: 用于确定图谱网络结构, 所述结构包括标题节点、 元素节点和 节点路径; 其中, 所述节点路径为标题 节点与元 素节点之间的关系元 素。 信息输入模块: 用于获取信息来源文本, 对所述信息来源文本进行解析, 输出文本标题 和文本内容; 结构化文本处理模块: 用于将所述文本标题和文本内容生成图谱网络, 所述图谱网络 符合所述图谱网络结构确定模块 提供的图谱网络结构; 图谱网络 输出模块: 输出 所述图谱网络 。 9.根据权利要求8所述的图谱 网络的生成装置, 其特征在于, 所述结构化文本处理模块权 利 要 求 书 1/2 页 2 CN 114860946 A 2还包括: 结构数据处理子模块: 用于处理文本内容, 抽取基本元素, 所述基本元素包括: 主题时 间、 主题地区、 主题人物机构名称; 三元组处理子模块: 用于处理文本内容, 解析生成三元组信息, 所述三元组信息包括: 三元组主语、 三元组宾语和三元组谓语; 图谱网络匹配子模块: 获取匹配规则, 生成图谱 网络, 所述图谱网络的数据来自所述基 本元素和三元组信息 。 10.根据权利要求9所述的图谱网络的生成装置, 其特征在于, 所述匹配规则在图谱网 络结构确定模块定义, 包括: 将所述文本标题匹配为标题 节点; 将所述基本元 素匹配为元 素节点; 将所述三元组主语、 三元组宾语匹配为元 素节点; 选择元素节点与标题 节点之间的节点路径。权 利 要 求 书 2/2 页 3 CN 114860946 A 3

.PDF文档 专利 一种图谱网络的生成方法和装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种图谱网络的生成方法和装置 第 1 页 专利 一种图谱网络的生成方法和装置 第 2 页 专利 一种图谱网络的生成方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。