全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210264239.4 (22)申请日 2022.03.17 (71)申请人 国网冀北电力有限公司 地址 100045 北京市西城区枣林前街32号 申请人 北京科东电力控制系统有限责任公 司  国家电网有限公司 (72)发明人 王凯 樊小伟 蓝海波 张锐  宋磊 袁汉杰 贾鑫 刘晓敏  张昊 季震 李晶 刘圣楠  屈中山  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 王丽霞(51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06N 5/02(2006.01) (54)发明名称 一种基于知识图谱的设备故障关键信息提 取方法及系统 (57)摘要 本发明公开了一种基于知识图谱的设备故 障关键信息提取方法及系统。 利用电力领域词库 对设备故障信息文本内容进行拆分、 过滤, 得到 故障关键字; 根据故障关键字, 利用知识图谱提 取第一实体对最短路径集合; 在 多个第一规则块 中并行地对第一实体对最短路径 集合进行修正; 在多个第二规则块中并行地对修正后的第一实 体对最短路径集合中的故障信息与电力领域词 库中的故障信息进行匹配, 得到第二实体对最短 路径集合; 根据第二规则块的匹配次数, 从第二 实体对最短路径集合中抽取出匹配次数最高的 实体对最短路径。 本发明利用多个规则块同时运 行、 并行地实施所需的匹配, 有效地实现了非结 构化语句等数据的多级并行处理, 大大提高了抽 取的通用性和可移植 性。 权利要求书2页 说明书7页 附图2页 CN 114676698 A 2022.06.28 CN 114676698 A 1.一种基于知识图谱的设备故障关键信息提取 方法, 其特 征在于, 包括: 利用预先构建的 电力领域词库对采集的设备故障信息文本内容进行拆分、 过滤, 得到 故障关键 字; 根据所述故障关键 字, 利用知识图谱提取第一实体对最短路径集 合; 在预设的多个第 一规则块中并行地对第 一实体对最短路径集合进行修正; 在预设的多 个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词 库中的故障信息进行匹配, 得到第二实体对最短路径集 合; 根据第二规则块的匹配次数, 从第 二实体对最短路径集合中抽取出匹配次数最高的实 体对最短路径。 2.根据权利要求1所述的一种基于知识图谱的设备故障关键信息提取方法, 其特征在 于, 所述电力领域词库通过以下 方法构建: 对已有的调控云模型表中存储的对象进行歧义字剔除、 去重、 分类, 存储到对应的业务 子库中; 对于非结构化文件, 利用Text Rank算法提取关键字, 然后进行分类, 存储到对应的业务 子库中, 将无法分类的放到技 术标准子库中。 3.根据权利要求2所述的一种基于知识图谱的设备故障关键信息提取方法, 其特征在 于, 利用TextRan k算法从非结构化文件中提取关键 字的方法, 包括: 将非结构文件中的文本进行分割, 形成句子数组; 对句子数组中的每个句子进行分词, 过滤停用词, 保留名称, 得到每个句子对应的关键 词; 基于所述关键词, 构建关键词图G=(V, E), 其中V为节点集, 由每个句子对应的关键词 组成, E为节点的边; 利用TextRan k公式, 迭代传播计算各节点的权 重, 直至收敛; 根据权重倒叙排列节点, 获得排序最高的多个词语; 将获取的词语进行分类, 存 储到对应的字库中。 4.根据权利要求1所述的一种基于知识图谱的设备故障关键信息提取方法, 其特征在 于, 所述第一规则块采用正则表达式, 多个所述第一规则块根据电力系统业务内容不同进 行构建, 不同规则块在运行信息匹配时相互隔离 。 5.根据权利要求1所述的一种基于知识图谱的设备故障关键信息提取方法, 其特征在 于, 所述第二规则块采用搜索表达式, 多个所述第二规则块根据电力系统业务内容不同进 行构建, 不同规则块在运行信息匹配时相互隔离 。 6.根据权利要求4所述的一种基于知识图谱的设备故障关键信息提取方法, 其特征在 于, 所述在预设的多个第一 规则块中并行地对第一实体对最短路径集 合进行修 正, 包括: 采用构建的多个正则表达式, 并行地对第一实体对最短路径集合中的文本进行处理, 得到电力领域 规范使用的文本 。 7.根据权利要求5所述的一种基于知识图谱的设备故障关键信息提取方法, 其特征在 于, 所述在预设的多个第二规则块中并行地对修正后的第一 实体对最短路径集合中的故障 信息与电力领域词库中的故障信息进行匹配, 包括: 将设备主体属性集合s与电力领域词库中设备主体属性集合s ′相比较, 所述设备主体权 利 要 求 书 1/2 页 2 CN 114676698 A 2属性集合s为修正后的故障关键字的集合, 若s∈s ′, 对第一实体对最短路径集合中的设备 故障信息p和电力领域词库中相关故障信息p ′的关键词进行词频计算, 得到分词向量K= {k1, k2,…, kn}和K′={k′1, k′2,…, k′m}; 利用相似性算法计算K和K ′之间的相似度, 得到设备故障信 息p和词库中设备故障信息 p′之间的匹配度, 当匹配度大于设定阈值, 过 滤出设备故障信息p。 8.一种基于知识图谱的设备故障关键信息提取系统, 其特 征在于, 包括: 基本信息提取模块, 利用预先构建的电力领域词库对采集的设备故障信 息文本内容进 行拆分、 过 滤, 得到故障关键 字; 路径结构信息提取模块, 根据所述故障关键字, 利用 知识图谱提取第一实体对最短路 径集合; 属性文本信 息提取模块, 用于在预设的多个第 一规则块中并行地对第 一实体对最短路 径集合进 行修正; 在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合 中的故障信息与电力领域词库中的故障信息进行匹配, 得到第二实体对最短路径集 合; 关系抽取模块, 根据第二规则块的匹配次数, 从第二实体对最短路径集合中抽取出匹 配次数最高的实体对最短路径。权 利 要 求 书 2/2 页 3 CN 114676698 A 3

.PDF文档 专利 一种基于知识图谱的设备故障关键信息提取方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱的设备故障关键信息提取方法及系统 第 1 页 专利 一种基于知识图谱的设备故障关键信息提取方法及系统 第 2 页 专利 一种基于知识图谱的设备故障关键信息提取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。