全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210459297.2 (22)申请日 2022.04.28 (71)申请人 贵州电网有限责任公司 地址 550002 贵州省贵阳市南明区滨河路 17号 (72)发明人 万金金 范强 黄军凯 文屹  吕黔苏 张迅 王冕 吴建蓉  赵超 梁源晨 丁江桥 刘卓娅  肖书舟 代吉玉蕾   (74)专利代理 机构 贵阳中新专利商标事务所 52100 专利代理师 商小川 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/383(2019.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06Q 50/06(2012.01) (54)发明名称 一种基于多源数据的电网设备缺陷体外循 环自动识别方法 (57)摘要 本发明公开了一种基于多源数据的电网设 备缺陷体外循环自动识别方法, 所述方法包括: 步骤1、 获取缺陷、 工作票数据中的字段, 对字段 进行预处理, 提取出有效字段; 步骤2、 采用TF ‑ IDF算法对缺陷数据进行分析, 提取出属于缺陷 的关键词; 步骤3、 采用模糊匹配的方法对处理的 工作票和缺陷进行模糊匹配; 步骤4、 将无法匹配 的数据进行Jaro  Winkler算 法的二次匹配; 步骤 5、 最终输 出缺陷体外循环的结果; 解决了现有 技 术对设备缺陷体外循环判断存在效率低、 精度低 和浪费了 大量人力资源, 以及由于不及时了解漏 报的设备缺陷导致设备发生其他故障和损坏等 问题。 权利要求书2页 说明书5页 CN 114741477 A 2022.07.12 CN 114741477 A 1.一种基于多源数据的电网设备缺陷体外循环自动识别方法, 其特征在于: 所述方法 包括: 步骤1、 获取缺陷、 工作票数据中的字段, 对字段进行 预处理, 提取出有效字段; 步骤2、 采用TF ‑IDF算法对缺陷数据进行分析, 提取 出属于缺陷的关键词; 步骤3、 采用模糊匹配的方法对处 理的工作票和缺陷进行模糊匹配; 步骤4、 将无法匹配的数据进行Jaro  Winkler算法的二次匹配; 步骤5、 最终输出缺陷体外循环的结果。 2.根据权利要求1所述的一种基于多源数据的电网设备缺陷体外循环自动识别方法, 其特征在于: 所述获取缺陷、 工作票数据中的字段, 对字段进行预处理, 提取出有效字段的 方法包括: 步骤1.1、 从电网管理平台收集电网缺陷信息库Ady及各局工作票信息库Bdy; 步骤1.2、 对电网缺陷信息库Ady进行数据清洗, 提取出需要使用的字段, 进行整理得到 电网缺陷信息库Ade; 步骤1.3、 对工作票信息库Bdy进行数据清洗, 提取出需要使用的字段, 用于数据匹配和 识别, 得到各局工作票信息库Bde。 3.根据权利要求1所述的一种基于多源数据的电网设备缺陷体外循环自动识别方法, 其特征在于: 所述采用TF ‑IDF算法对缺陷数据进行分析, 提取出属于缺陷的关键词的方法 包括: 步骤2.1、 将电网缺陷信息通过TF ‑IDF算法进行电网缺 陷热词分析, 得到电网缺陷信息 典型关键词, 形成电网缺陷关键词库Akw; 采用TF ‑IDF算法进行电网缺陷热词分析, 得到电 网缺陷信息典型关键词的步骤包括: 通过TF ‑IDF算法对电网缺陷信息库进行数据分析, 提 取出在电网缺陷信息库中出现最高频率的缺陷关键词; 对提取的关键词进行分类, 保留有 效关键词, 最终形成电网缺陷关键词库。 4.根据权利要求1所述的一种基于多源数据的电网设备缺陷体外循环自动识别方法, 其特征在于: 采用模糊匹配的方法对处理的工作票和 缺陷进行模糊匹配的方法包括: 利用 电网缺陷关键词 库Akw在各局工作票信息库Bde中进行查询; 若电网缺陷关键词 库Akw中第i 个关键词Akwi未在工作票信息中出现, 则将对应工作票剔除出各局工作票信息库Bde, 形成 电网缺陷关键词筛 选后的各局工作票信息库Bds。 5.根据权利要求4所述的一种基于多源数据的电网设备缺陷体外循环自动识别方法, 其特征在于: 二次匹配的方法包括: 步骤4.1、 设置电网缺陷排除关键词Apk, 并在电网缺陷关键词筛选后的各局工作票信 息库Bds进行二次筛 选, 形成电网缺陷排除关键词筛 选后的各局工作票信息库Bdw; 步骤4.2、 利用电网缺陷信息库Ady中的 “地点”字段与电网缺陷排除关键词筛选后的各 局工作票信息库Bdw中的 “站、 线路”字段进行连接, 连接后的每条记录都包括工作票内容和 符合连接条件的缺陷 内容, 形成电网缺陷工作票匹配合格库Abdy; 步骤4.3、 利用电网缺 陷信息库Ady中的 “单位”字段与各局工作票信息库Bdw中的 “运维 单位”字段进行匹配, 若 “单位”≠“运维单位 ”字段则从电网缺陷工作票匹配合格库ABde中 剔除, 形成电网缺陷工作票匹配合格库Abds; 步骤4.4、 对电网缺陷信息库Ady中 “发现时间 ”与各局工作票信息库Bdw “工作终结时权 利 要 求 书 1/2 页 2 CN 114741477 A 2间”进行匹配, 当两者的时间能满足 “缺陷等级 ”的时间判断依据时则判定为两个字段的时 间匹配合格; 步骤4.5、 利用电网缺陷工作票匹配合格库ABds, 采用P air letters similarity算法 对电网缺陷工作票匹配合格库 ABds中的“缺陷描述 ”和“工作任务 ”两个字段进 行模糊匹配, 并输出匹配得分, 形成电网缺陷工作票匹配合格库Abdw; 步骤4.6、 利用电网缺陷工作票匹配合格库ABdw, 通过对电网缺陷工作票匹配合格库 ABdw的匹配分数分析, 设置匹配得分阈值为0.35, 若电网缺陷工作票匹配合格库ABdw中的 匹配得分阈值低于0.35则进入电网缺陷工作票匹配不合格库 ABcy, 反之 匹配得分阈值高于 0.35则进入电网缺陷工作票匹配合格库Abdl; 步骤4.7、 利用电网缺陷工作票匹配不合格库ABcy, 通过Jaro  Winkler算法对电网缺陷 工作票匹配不合格库ABcy中的 “功能位置 ”、“工作任务 ”字段进行二次模糊匹配, 得到电网 缺陷工作票匹配不 合格库Abce。 6.根据权利要求5所述的一种基于多源数据的电网设备缺陷体外循环自动识别方法, 其特征在于: 二次匹配的方法还 包括: 步骤4.8、 利用电网缺 陷工作票匹配不合格库ABce, 通过设置阈值0.8, 将二次模糊匹配 结果高于阈值的数据放入电网缺陷工作票匹配合格库 ABdl, 低于阈的数据留在电网缺陷工 作票匹配不 合格库Abce; 步骤4.9、 电网缺陷工作票匹配不 合格库ABce 此部分为 缺陷体外循环数据。 7.根据权利要求5所述的一种基于多源数据的电网设备缺陷体外循环自动识别方法, 其特征在于:“缺陷等级 ”字段进行时间匹配方法包括: 步骤4.4.1、 当电网缺 陷信息库Ady中 “缺陷等级 ”为“紧急”缺陷时, 筛选时间t与各局工 作票信息库Bdw中 “工作终结时间s ”之差小于等于1天, 若不满足此时间判据则从电网缺陷 工作票匹配合格库ABds中剔除; 步骤4.4.2、 当电网缺 陷信息库Ady中 “缺陷等级 ”为“重大”缺陷时, 若不满足筛选时间t 与各局工作票信息库Bdw中 “工作终结时间s ”之差小于等于7天, 则从电网缺陷工作票匹配 合格库ABds中剔除; 步骤4.4.3、 当电网缺 陷信息库Ady中 “缺陷等级 ”为“一般”缺陷时, 若不满足筛选时间t 与各局工作票信息库Bdw中 “工作终结时间s ”之差小于等于183天, 则从电网缺陷工作票匹 配合格库ABds中剔除; 步骤4.4.4、 当电网缺 陷信息库Ade中出现 “缺陷等级 ”为“其他”缺陷时直接进入电网缺 陷工作票匹配合格库ABds。 8.根据权利要求5所述的一种基于多源数据的电网设备缺陷体外循环自动识别方法, 其特征在于: 若电网缺陷信息库Ady中的 “地点”与各局工作票信息库Bdw中的 “站、 线路”字 段不能匹配, 即 “站、 线路”≠“地点”则剔除出电网缺陷工作票匹配合格库ABdy, 形成电网缺 陷工作票匹配合格库ABde。权 利 要 求 书 2/2 页 3 CN 114741477 A 3

.PDF文档 专利 一种基于多源数据的电网设备缺陷体外循环自动识别方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多源数据的电网设备缺陷体外循环自动识别方法 第 1 页 专利 一种基于多源数据的电网设备缺陷体外循环自动识别方法 第 2 页 专利 一种基于多源数据的电网设备缺陷体外循环自动识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。