专利一种服务器告警日志描述文本的实体关系抽取方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210149183.8 (22)申请日 2022.02.18 (71)申请人国家电网有限公司信息通信分公司地址 100761 北京市西城区白广路二条一号综合楼 2307房间申请人国网电力科学研究院有限公司　南京南瑞信息通信科技有限公司　国网山东省电力公司信息通信公司 (72)发明人赵子岩　高德荃　来风刚　张冰　娄超　吴超　罗旺　席丁鼎　俞弦　韩圣亚　马超　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 代理人何春廷(51)Int.Cl. G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/216(2020.01) G06F 16/36(2019.01) G06F 11/30(2006.01) (54)发明名称一种服务器告警日志描述文本的实体关系抽取方法及系统 (57)摘要本发明公开了一种服务器告警日志描述文本的实体关系抽取方法及系统，包括：获取待抽取的服务器告警日志描述文本数据，进行依存句法分析得到每个句子的句式，判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式，若是，则根据对应的核心表达式输出该句子的实体关系至第一实体关系集；若否，则利用包括领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集；将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数据的实体关系组。优点：充分利用服务器告警领域频繁核心表达式和统计学算法进行实体关系抽取，提高实体关系抽取的准确性，为后续构建知识图谱提供可靠来源。权利要求书3页说明书6页附图2页 CN 114417828 A 2022.04.29 CN 114417828 A 1.一种服务器告警日志描述文本的实体关系抽取方法，其特征在于，包括：获取待抽取的服务器告警日志描述文本数据；对服务器告警日志描述文本数据中的句子进行依存句法分析，得到每个句子的句式，判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式，若是，则根据对应的核心表达式输出该句子的实体关系至第一实体关系集；若否，则利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集；将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数据的实体关系组。 2.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法，其特征在于，还包括：对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的文本数据，利用预处理后的文本数据代替服务器告警日志描述文本数据进行依存句法分析。 3.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法，其特征在于，所述领域频繁核心表达式种子模板的确定过程，包括：获取服务器告警日志历史描述文本；对待抽取的服务器告警日志历史描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的历史文本数据；基于依存句法分析得到的最短依存树抽取预处理后的文本数据的核心表达式，依据核心表达式中谓语动词出现的频率进行排序，选取出现频率高于设定阈值的谓语动词，得到领域频繁核心表达式集合；从领域频繁核心表达式集合中抽取一部分作为领域频繁核心表达式种子模板。 4.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法，其特征在于，所述利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集，包括：将所述领域频繁核心表达式种子模板作为Bo otstrapping算法的种子集；将不符合的领域频繁核心表达式种子模板的句子放入到待处理集合中；分别利用依存句法分析方法和词法分析方法提取所述种子集和待处理集合中句子的词法特征和句法特征，计算种子集和待处理集合中词法特征和句法特征的相似度，取与种子集中句子相似度分数大于预设值的待处理集合中的句子加入到候选集中，该待处理集合中的句子的实体关系为与其对应的种子集中句子的实体关系；下一次迭代中将候选集新增的句子加入到上一次迭代的种子集中得到新种子集，将加入到候选集中的句子从待处理集合中剔除得到新待处理集合；再对新种子集和新待处理集合中句子的词法特征和句法特征进行相似度计算，取相似度分数大于预设值的新待处理集合中的句子加入到候选集中；不断重复迭代过程扩展候选集中的句子，直到没有新的句子产生为止，得到候选集的句子集合，通过候选集的句子集合确定第二实体关系集。 5.一种服务器告警日志描述文本的实体关系抽取系统，其特征在于，包括：获取模块，用于获取待抽取的服务器告警日志描述文本数据；权　利　要　求　书 1/3 页 2 CN 114417828 A 2预处理模块，用于对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的文本数据；抽取模块，用于对预处理后的文本数据中的句子进行依存句法分析，得到每个句子的句式，判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式，若是，则根据对应的核心表达式输出该句子的实体关系至第一实体关系集；若否，则利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集；将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数据的实体关系组。 6.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取方法，其特征在于，还包括：预处理模块，用于对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的文本数据，利用预处理后的文本数据代替服务器告警日志描述文本数据进行依存句法分析。 7.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取系统，其特征在于，所述抽取模块包括：种子模板确定单元，用于获取服务器告警日志历史描述文本；对待抽取的服务器告警日志历史描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的历史文本数据；基于依存句法分析得到的最短依存树抽取预处理后的文本数据的核心表达式，依据核心表达式中谓语动词出现的频率进行排序，选取出现频率高于设定阈值的谓语动词，得到领域频繁核心表达式集合；从领域频繁核心表达式集合中抽取一部分作为领域频繁核心表达式种子模板。 8.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取系统，其特征在于，所述抽取模块包括：算法处理单元，用于将所述领域频繁核心表达式种子模板作为Bootstrapping算法的种子集；将不符合的领域频繁核心表达式种子模板的句子放入到待处理集合中；分别利用依存句法分析方法和词法分析方法提取所述种子集和待处理集合中句子的词法特征和句法特征，计算种子集和待处理集合中词法特征和句法特征的相似度，取与种子集中句子相似度分数大于预设值的待处理集合中的句子加入到候选集中，该待处理集合中的句子的实体关系为与其对应的种子集中句子的实体关系；下一次迭代中将候选集新增的句子加入到上一次迭代的种子集中得到新种子集，将加入到候选集中的句子从待处理集合中剔除得到新待处理集合；再对新种子集和新待处理集合中句子的词法特征和句法特征进行相似度计算，取相似度分数大于预设值的新待处理集合中的句子加入到候选集中；不断重复迭代过程扩展候选集中的句子，直到没有新的句子产生为止，得到候选集的句子集合，通过候选集的句子集合确定第二实体关系集。 9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至4所述的方法中的任一方法。 10.一种计算设备，其特征在于，包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存权　利　要　求　书 2/3 页 3 CN 114417828 A 3

专利 一种服务器告警日志描述文本的实体关系抽取方法及系统

专利一种服务器告警日志描述文本的实体关系抽取方法及系统