全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221027549 9.1 (22)申请日 2022.03.21 (71)申请人 南方电网科 学研究院有限责任公司 地址 510623 广东省广州市黄埔区科 学城 科翔路11号 (72)发明人 杨宇亮 吴争荣 涂亮 石嘉豪  (74)专利代理 机构 广州海藻专利代理事务所 (普通合伙) 44386 专利代理师 郑凤姣 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 一种智能知识检索系统 (57)摘要 本发明公开了一种智能知识检索系统, 包括 资源板块、 资源处理板块、 电网运维与科研知识 主题词库、 电网运维与科研知识库、 数据存储板 块、 检索板块和用户端, 所述资源板块与资源处 理板块通过互联网通信连接, 所述资源处理板块 通过局域网与电网运维与科研知识主题词库通 信连接, 所述电网运维与科研知识主题词库与电 网运维与科研知识库通过信号线通信连接, 所述 电网运维与科研知识库与数据存储板块通过信 号线通信连接, 所述数据存储板块通过物联网与 检索板块通信连接, 用户端通过检索板块访问数 据存储板块。 本发明具备将基于智能检索引擎将 检索相关度和时间效应结合起来, 既能保证查询 的正确性又能保证将最新的知识资源优先展示 的优点。 权利要求书1页 说明书3页 附图1页 CN 114610847 A 2022.06.10 CN 114610847 A 1.一种智能知识检索系统, 包括资源板块、 资源处理板块、 电网运维与 科研知识主题词 库、 电网运 维与科研知识库、 数据存储板块、 检索板块和用户端, 其特征在于: 所述资源板块 与资源处理板块通过 互联网通信连接, 所述资源处理板块通过局域网与电网运维与科研知 识主题词 库通信连接, 所述电网运维与科研知识主题词库与电网运 维与科研知识库通过信 号线通信连接, 所述电网运维与科研知识库与数据存储板块通过信号线通信连接, 所述数 据存储板块通过物联网与检索板块 通信连接, 用户端通过检索板块访问数据存 储板块。 2.根据权利要求1所述的一种智能知识检索系统, 其特征在于: 资源板块包括设备管理 系统、 科研知识库和其 他信息平台。 3.根据权利要求1所述的一种智能知识检索系统, 其特征在于: 资源处理板块包括自然 语言处理、 碎片化加工和文本相似性分析, 其中 自然语言处理采用全切分技术, 找出句子中 所有的词, 计算每个词组合 成一句话的概率, 选择概率最大的词组合作为切分结果, 碎片化 加工包括元数据自动标注、 正文xml 自动标注、 自动目录链接、 乱码检测和校正、 自动排版、 自动图像处理、 自动识别, 文本相似性分析采用了基于多阶指纹比对矩阵的相似检索算法: 对文本进 行预处理形成统一格式; 将统一格式文本使用simhash算法进 行编码, 形成64位二 进制的多阶指纹特征值; 计算原文本的特征值与比对文本特征值之间的海明距离, 选取海 明距离小于阈值3的文本进行二次计算; 将原文本与比对文本进行分词并两两构建比对矩 阵, 计算文本相似度和相似内容并标记输出; 对文本相似度和相似度内容计算方法进行优 化, 该优化方法开启多 线程采用并行计算。 4.根据权利要求3所述的一种智能知识检索系统, 其特征在于: 文本相似性具体分析内 容包括: 相似性内容的相似度分析、 相似位置分析、 相似内容的追根溯源分析、 一对一对照 分析、 一对多对照分析和章节段落分析。 5.根据权利要求1所述的一种智能知识检索系统, 其特征在于: 数据存储板块基于多元 异构数据, 提供分布式计算框架、 多节点并行计算MP P集群数据库, 加快 数据的计算处 理。 6.根据权利要求1所述的一种智能知识检索系统, 其特征在于: 资源处理板块通过对资 源板块的资源信息进 行模拟训练和反馈自主 学习, 持续不断地对已经碎片化处理的检索资 源进行优化和扩充。 7.根据权利要求1所述的一种智能知识检索系统, 其特征在于: 用户端可通过检索板块 进行一般检索、 跨库检索、 句子检索和语音检索 访问数据存 储板块。 8.根据权利要求1所述的一种智能知识检索系统, 其特征在于: 检索板块将用户端检索 内容经过智能纠错、 智能排序和智能提 示之后反馈 输出至用户端。权 利 要 求 书 1/1 页 2 CN 114610847 A 2一种智能知识检索系统 技术领域 [0001]本发明涉及 知识检索技 术领域, 具体为 一种智能知识检索系统。 背景技术 [0002]知识检索是整个知识管理平台面向终端用户的核心系统, 是针对南网公司各业务 工作和各类岗位人员提供场景化知识服务的基础, 针对工程师的工作场景提供多样化的知 识检索功能, 目标是快速准确地找到想要的知识。 因此其核心功能包括知识导航、 统一检 索、 全文检索、 相似检索、 智能检索、 智能纠错、 语音检索等功能。 [0003]检索引擎是决定检索功能的关键, 鉴于知识中心是由海量的非结构化数据组成, 因此检索后台基于强大的全文检索引擎, 既要保证检索的准确性又要保证检索的速度和效 率, 现有的知识检索引擎无法满足以上需求。 发明内容 [0004]本发明的目的在于提供一种智能知识检索系统, 具备将基于智能检索引擎将检索 相关度和时间效应结合起来, 既能保证查询的正确性又能保证将最新的知识资源优先展示 的优点, 解决了现有的知识检索引擎无法满足既要保证检索的准确性又要保证检索的速度 和效率的问题。 [0005]为实现上述目的, 本发明提供如下技 术方案: 一种智能知识检索系统, 包括资源板块、 资源处理板块、 电网运维与科研知识主题 词库、 电网运维与科研知识库、 数据存储板块、 检索板块和用户端, 所述资源板块与资源处 理板块通过 互联网通信连接, 所述资源处理板块通过局域网与电网运维与科研知识主题词 库通信连接, 所述电网运 维与科研知识主题词 库与电网运维与科研知识库通过信号线通信 连接, 所述电网运维与科研知识库与数据存储板块通过信号线通信连接, 所述数据存储板 块通过物联网与检索板块 通信连接, 用户端通过检索板块访问数据存 储板块。 [0006]优选的, 资源板块包括设备 管理系统、 科研知识库和其 他信息平台。 [0007]优选的, 资源处理板块包括自然语言处理、 碎片化加工和文本相似性分析, 其中自 然语言处理采用全切分技术, 找出句子中所有的词, 计算每个词组合 成一句话的概率, 选择 概率最大的词组合作为切分结果, 碎片化加工包括元数据自动标注、 正文xml自动标注、 自 动目录链接、 乱码 检测和校正、 自动排版、 自动图像处理、 自动识别, 文本相似性分析采用了 基于多阶指纹比对矩阵的相似检索算法: 对文本进行预处理形成统一格式; 将统一格式文 本使用simhash算法进 行编码, 形成64位二进制的多阶指纹特征值; 计算原文本的特征值与 比对文本特征值之间的海明距离, 选取海明距离小于阈值3的文本进 行二次计算; 将原文本 与比对文本进行分词并两两构建比对矩阵, 计算文本相似度和相似内容并标记输出; 对文 本相似度和相似度内容计算方法进行优化, 该优化方法开启多 线程采用并行计算。 [0008]优选的, 文本相似性具体分析内容包括: 相似性内容的相似度分析、 相似位置分 析、 相似内容的追根溯源分析、 一对一对照分析、 一对多对照分析和章节段落分析。说 明 书 1/3 页 3 CN 114610847 A 3

.PDF文档 专利 一种智能知识检索系统

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种智能知识检索系统 第 1 页 专利 一种智能知识检索系统 第 2 页 专利 一种智能知识检索系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。