全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111357482.2 (22)申请日 2021.11.16 (71)申请人 清华大学 地址 100084 北京市海淀区清华园 申请人 中国电力科 学研究院有限公司   国网浙江省电力有限公司经济技 术 研究院 (72)发明人 周义棋 刘畅 李丹煜 张琳琳  刘彬 龙增 钟茂华  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 代理人 单冠飞 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01)G06F 16/36(2019.01) G06F 40/289(2020.01) G06N 20/00(2019.01) G06Q 50/06(2012.01) (54)发明名称 一种电网应急业务文件数字化提取与检索 方法和装置 (57)摘要 本发明公开了一种电网应急业务文件数字 化提取与检索方法和装置, 其中, 该方法包括: 对 多种格式的电网应急业务文件进行逐行读取, 获 取文本内容; 制定根据文件名称进行判断和根据 文章结构进行判断的规则, 根据规则并基于获取 的文本内容以自动识别电网应急业务文件类型, 包括应急预案、 法律法规和事故案例三个类型; 基于识别的业务文件类型, 对应急预案、 法律法 规和事故案例进行知识提取以得到文件知识内 容, 并将文件知识内容的数据写入数据库; 根据 输入的检索内容在数据库中进行匹配得到匹配 结果, 对匹配结果进行排序并返回输出结果。 本 发明解决了电网应急业务文件的知识抽取方法 缺乏问题, 同时提出兼顾准确性和效率性的电网 应急知识检索方法。 权利要求书3页 说明书10页 附图4页 CN 114238559 A 2022.03.25 CN 114238559 A 1.一种电网应急业 务文件数字化 提取与检索方法, 其特 征在于, 包括以下步骤: S1,对多种格式的电网应急业务文件进行读取, 获取文本内容; 其中, 所述获取文本内 容时, 以行为单位对文本进行读取; S2,制定根据文件名称进行判断和根据文章结构进行判断的规则, 根据所述规则并基 于所述获取 的文本内容以自动识别电网应急业务文件类型; 其中, 所述电网应急业务文件 类型包括应急预案、 法律法规和事故案例三个 类型; S3,基于所述识别的电网应急业务文件类型, 对所述应急预案、 法律法规和事故案例进 行知识提取以得到文件知识内容, 并将所述文件知识内容的数据写入数据库; S4,输入不同的检索内容, 根据所述不同的检索内容在所述数据库中进行匹配得到匹 配结果, 对所述匹配结果进行排序并返回输出 结果。 2.根据权利要求1所述的电网应急业务文件数字化提取与检索方法, 其特征在于, 所述 S1, 包括: 以行为单位对文本进行提取记录每一行的文本, 对于PD F、 WORD、 EXCEL文件用python相 关库进行解析; 对于图片格式文件, 采用OCR进行图片中的文本识别; 对于CEB文件, 通过脚 本代码操作windows应用程序, 打开并读取CEB 文件; 在读取文件后, 将 每一行的文本 保存到 列表当中。 3.根据权利要求2所述的电网应急业务文件数字化提取与检索方法, 其特征在于, 所述 S3, 包括: S3.1对所述应急预案进行知识提取, S3.2对 所述法律法规进行知识提取, S3.3, 对 所述事故案例进行知识提取; 其中, 所述S3.1, 包括: S3.11, 找到应急预案当中总则所在的位置, 获取总则之前的文本, 在所述总则之前的 文本中获取第一预设格式的文件标题; 如果文本中存在书名号, 则取书名号中间的内容为 文件标题; 否则, 如果文本的第一行为预设预案, 则取所述第一行为文件标题; 否则通过机 器学习提取文件标题; S3.12, 通过机器学习在所述总则之前的文本中提取第二预设格式的发布机构和第三 预设格式的文件编号; S3.13, 通过正则表达式提取第四预设格式的发布日期; S3.14, 通过词典匹配或机器学习提取第一预设关键词; 判断文本是否存在章节适用范 围, 如果存在, 则在章节的文本中进行提取; 如果 不存在, 则从文件标题中进行提取; S3.15, 将以行为单位的文本进行拼接, 同时剔除总则之前的文本, 形成文本全文; S3.16, 对所述文本全文进行分词 处理, 经过停用词过滤后统计每个词的出现频率, 同 时根据电网业务和公共安全领域的专业名词, 对分词结果进行修正, 按照词语权重的高低 取预设位, 保存词语及所述词语出现次数。 4.根据权利要求3所述的电网应急业务文件数字化提取与检索方法, 其特征在于, 所述 S3.2包括: S3.21, 根据提取的优先度从文件前5行的文本中提取文件标题; 所述提取的优先度为: 书名号中的内容为文件标题; 第一行文本中为第 五预设格式则视为文件标题; 通过机器学 习的提取 标题; S3.22, 通过机器学习在文本前5行提取第六预设格式的发布机构和第七预设格式的文 件编号;权 利 要 求 书 1/3 页 2 CN 114238559 A 2S3.23, 通过正则表达式从文本的前5行或者倒数5行提取第八预设格式的发布日期, 如 果匹配到日期的同一行匹配到 了第二预设 关键词, 则不取 所述日期。 S3.24, 判断法律法规文件是否存在总则部分内容, 如果存在, 则从总则的文本中提取 适用事件, 若不存在, 则从标题中提取适用事 件; S3.25, 将以行为单位的文本进行拼接, 形成文本全文; S3.26, 与所述S3.16相同。 5.根据权利要求3所述的电网应急业务文件数字化提取与检索方法, 其特征在于, 所述 S3.3包括: S3.31, 通过正则表达式从全文内容中提取第九预设格式的发生时间; S3.32, 通过机器学习从全文中进行地点识别, 如果在全文中识别出了多个地点信息, 则取粒度最小的地 点信息作为事故案例的发生 地点; S3.33, 预定义事故类别, 为每一类事故类型配置对应的词典, 在知识提取时, 根据词典 中的关键词出现情况计算每种类型的权 重, 权重最高的类型则为事故案例的事故类别; S3.34, 判断全文中是否存在第三预设关键词的标题, 如果存在, 则直接提取相对应的 文章段落, 如果不存在, 则从全文的某一行中进 行查找, 如果全文的某行包含第四预设关键 词, 则将所述某行所对应的句子作为事故案例的事故原因, 如果无法找到对应内容, 则留 空; S3.35, 从全文内容中进行匹配, 通过正则表达式匹配符合第十预设格式的内容作 为事 故案例的处 理措施; S3.36, 遍历全文中的每一行, 如果其中一行包括第四预设关键词, 则取所述其中一行 对应的句子为事故案例的损失后果; S3.37, 将全文内容进行拼接并保存, 以使后续重新 查看或检查。 6.根据权利要求1所述的电网应急业务文件数字化提取与检索方法, 其特征在于, 所述 S4, 包括: S4.1, 输入检索内容和S4.2, 匹配内容及排序返回; 其中, 所述S4.1包括: S4.11, 如果输入的是关键词或者陈述句, 则从数据库中查询 相关联信息进行返回; S4.12, 如果输入的是疑问句, 则寻找所述疑问句 相关解答后进行返回。 7.根据权利要求6所述的电网应急业务文件数字化提取与检索方法, 其特征在于, 所述 S4.2, 包括: S4.21, 如果输入的检索内容是关键词, 则按照第一预设优先级顺序进行匹配查询并返 回结果; S4.22, 如果输入的检索内容是陈述句子或多个关键词, 则按照第二预设优先级顺序进 行匹配查询并返回结果; S4.23, 如果输入的检索内容是疑问句, 从输入的检索内容中判断条件信息和 目标信 息, 判断出之后以条件信息作为检索的条件在数据库中进行检索, 匹配对应目标信息的字 段内容, 并进行返回输出。 8.根据权利要求7所述的电网应急业务文件数字化提取与检索方法, 其特征在于, 所述 S4.21, 包括: S4.211, 查找标题中包 含关键词的文件, 按照发布时间的先后顺序进行排序; S4.212, 查找文件内容中包 含关键词的文件, 按照关键词的出现次数进行排序;权 利 要 求 书 2/3 页 3 CN 114238559 A 3

.PDF文档 专利 一种电网应急业务文件数字化提取与检索方法和装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种电网应急业务文件数字化提取与检索方法和装置 第 1 页 专利 一种电网应急业务文件数字化提取与检索方法和装置 第 2 页 专利 一种电网应急业务文件数字化提取与检索方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:00:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。