全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210149183.8 (22)申请日 2022.02.18 (71)申请人 国家电网有限公司信息通信分公司 地址 100761 北京市西城区白广路二条一 号综合楼 2307房间 申请人 国网电力科 学研究院有限公司   南京南瑞信息通信科技有限公司   国网山东省电力公司信息通信公司 (72)发明人 赵子岩 高德荃 来风刚 张冰  娄超 吴超 罗旺 席丁鼎 俞弦  韩圣亚 马超  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 代理人 何春廷(51)Int.Cl. G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/216(2020.01) G06F 16/36(2019.01) G06F 11/30(2006.01) (54)发明名称 一种服务器告警日志描述文本的实体关系 抽取方法及系统 (57)摘要 本发明公开了一种服务器告警日志描述文 本的实体关系抽取方法及系统, 包括: 获取待抽 取的服务器告警日志描述文本数据, 进行依存句 法分析得到每个句子的句式, 判断每个句式是否 符合预先确定的领域频繁核心表达式种子模板 中的某个核心表达式, 若是, 则根据对应的核心 表达式输出该句子的实体关系至第一实体关系 集; 若否, 则利用包括领域频繁核心表达式种子 模板的统计学算法进行实体关系抽取, 输出到第 二实体关系集; 将第一实体关系集和第二实体关 系集合并后得到最终的服务器告警日志描述文 本数据的实体关系组。 优点: 充分利用服务器告 警领域频繁核心表达式和统计学算法进行实体 关系抽取, 提高实体关系抽取的准确性, 为后续 构建知识图谱提供 可靠来源。 权利要求书3页 说明书6页 附图2页 CN 114417828 A 2022.04.29 CN 114417828 A 1.一种服 务器告警日志描述文本的实体关系抽取 方法, 其特 征在于, 包括: 获取待抽取的服 务器告警日志描述文本数据; 对服务器告警日志描述文本数据中的句子进行依存句法分析, 得到每个句子的句式, 判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式, 若 是, 则根据对应的核心表达式输出该句子的实体关系至第一 实体关系集; 若否, 则利用包括 所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取, 输出到第二 实体关系 集; 将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数 据的实体关系组。 2.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法, 其特征在于, 还包括: 对待抽取 的服务器告警日志描述文本数据进行复杂句 子分句和去除无用 词处理, 得到预处理后的文本数据, 利用预 处理后的文本数据 代替服务器告警日志描述文本数据进 行依存句法分析。 3.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法, 其特征在于, 所述领域频繁核心 表达式种子模板的确定过程, 包括: 获取服务器告警日志历史描述文本; 对待抽取的服务器告警日志历史描述文本数据进行复杂句子分句和去除无用词处理, 得到预处 理后的历史文本数据; 基于依存句法分析得到的最短依存树抽取预处理后的文本数据的核心表达 式, 依据核 心表达式中谓语动词出现的频率进行排序, 选取出现频率高于设定阈值的谓语动词, 得到 领域频繁核心 表达式集 合; 从领域频繁核心 表达式集 合中抽取一部分作为领域频繁核心 表达式种子模板 。 4.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法, 其特征在于, 所述利用包括所述领域频繁核心表达式种子模板的统计学算法进 行实体关系抽取, 输出到 第二实体关系集, 包括: 将所述领域频繁核心 表达式种子模板作为Bo otstrapping算法的种子集; 将不符合的领域频繁核心 表达式种子模板的句子放入到待处 理集合中; 分别利用依存句法分析方法和词法分析方法提取所述种子集和待处理集合中句子的 词法特征和句法特征, 计算种子集和待处理集合中词法特征和句法特征 的相似度, 取与种 子集中句子相似度分数大于预设值的待处理集合中的句子加入到候选集中, 该待处理集合 中的句子的实体关系为与其对应的种子集中句子的实体关系; 下一次迭代中将候选集新增的句子加入到上一 次迭代的种子集中得到新种子集, 将加 入到候选集中的句子从待处 理集合中剔除得到新待处 理集合; 再对新种子集和新待处理集合中句子的词法特征和句法特征进行相似度计算, 取相似 度分数大于预设值的新待处 理集合中的句子加入到候选集中; 不断重复迭代过程扩展候选集中的句子, 直到没有新的句子产生为止, 得到候选集的 句子集合, 通过候选集的句子集 合确定第二实体关系集。 5.一种服 务器告警日志描述文本的实体关系抽取系统, 其特 征在于, 包括: 获取模块, 用于获取待抽取的服 务器告警日志描述文本数据;权 利 要 求 书 1/3 页 2 CN 114417828 A 2预处理模块, 用于对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除 无用词处 理, 得到预处 理后的文本数据; 抽取模块, 用于对预处理后的文本数据中的句子进行依存句法分析, 得到每个句子的 句式, 判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达 式, 若是, 则根据对应的核心表达式输出该句子的实体关系至第一实体关系集; 若否, 则利 用包括所述领域频繁核心表达式种子模板的统计学算法进 行实体关系抽取, 输出到第二 实 体关系集; 将第一实体关系集和 第二实体关系集合并后得到最终的服务器告警日志描述文 本数据的实体关系组。 6.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取方法, 其特征在于, 还包括: 预处理模块, 用于对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除 无用词处理, 得到预处理后的文本数据, 利用预处理后的文本数据代替服务器告警日志描 述文本数据进行依存句法分析。 7.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取系统, 其特征在于, 所述抽取模块包括: 种子模板确定单 元, 用于获取服务器告警日志历史描述文本; 对待抽取的服务器告警日志历史描述文本数 据进行复杂句 子分句和去除无用 词处理, 得到预处理后的历史文本数据; 基于依存句法分 析得到的最短依存树抽取预处理后的文本数据的核心表达式, 依据核心表达式中谓语动词 出现的频率进行排序, 选取出现频率高于设定阈值的谓语动词, 得到领域频繁核心表达式 集合; 从领域频繁核心 表达式集 合中抽取一部分作为领域频繁核心 表达式种子模板 。 8.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取系统, 其特征在于, 所述抽取模块包括: 算法处 理单元, 用于将所述领域频繁核心表达式种子模板作为Bootstrapping算法的种子集; 将不符 合的领域频繁核心表达式种子模板的句子放入到待处理集合中; 分别利用依存句法分析方 法和词法分析方法提取所述种子集和待处理集合中句子的词法特征和句法特征, 计算种子 集和待处理集合中词法特征和句法特征的相似度, 取与种子集中句子相似度分数大于预设 值的待处理集合中的句子加入到候选集中, 该待处理集合中的句子的实体关系为与其对应 的种子集中句子的实体关系; 下一次迭代中将候选集新增的句子加入到上一 次迭代的种子集中得到新种子集, 将加 入到候选集中的句子从待处 理集合中剔除得到新待处 理集合; 再对新种子集和新待处理集合中句子的词法特征和句法特征进行相似度计算, 取相似 度分数大于预设值的新待处 理集合中的句子加入到候选集中; 不断重复迭代过程扩展候选集中的句子, 直到没有新的句子产生为止, 得到候选集的 句子集合, 通过候选集的句子集 合确定第二实体关系集。 9.一种存储一个或多个程序的计算机可读存储介质, 其特征在于, 所述一个或多个程 序包括指令, 所述指令当由计算设备执行时, 使得所述计算设备执行根据权利要求1至4所 述的方法中的任一方法。 10.一种计算设备, 其特 征在于, 包括, 一个或多个处理器、 存储器以及一个或多个程序, 其中一个或多个程序存储在所述存权 利 要 求 书 2/3 页 3 CN 114417828 A 3

.PDF文档 专利 一种服务器告警日志描述文本的实体关系抽取方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种服务器告警日志描述文本的实体关系抽取方法及系统 第 1 页 专利 一种服务器告警日志描述文本的实体关系抽取方法及系统 第 2 页 专利 一种服务器告警日志描述文本的实体关系抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。