全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211147477.3 (22)申请日 2022.09.21 (71)申请人 云智慧 (北京) 科技有限公司 地址 100096 北京市海淀区清河西三 旗东 路6幢2层210室 (72)发明人 钟威 郑铁樵 张博  (74)专利代理 机构 北京华桐专利代理事务所 (特殊普通 合伙) 16111 专利代理师 王华兴 (51)Int.Cl. G06F 11/30(2006.01) G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01) (54)发明名称 一种日志的聚类解析方法、 装置及设备 (57)摘要 本发明公开了一种日志的聚类解析方法、 装 置及设备。 其中, 所述方法包括: 获取待解析日志 数据的日志序列; 根据所述日志序列, 获得所述 待解析日志数据的常量特征; 根据所述常量特 征, 确定候选聚类簇; 根据所述日志序列的元素 在聚类簇中的出现频率, 加权计算所述待解析日 志数据与所述候选聚类簇的相似度; 根据所述相 似度和预设相似度阈值, 在所述候选聚类簇中确 定所述待解析日志数据所属的目标聚类簇。 本发 明的方案可以有效提高日志解析的准确率。 权利要求书2页 说明书14页 附图8页 CN 115221012 A 2022.10.21 CN 115221012 A 1.一种日志的聚类解析 方法, 其特 征在于, 包括: 获取待解析日志数据的日志序列; 根据所述日志序列, 获得 所述待解析日志数据的常量特 征; 根据所述常量特 征, 确定候选聚类簇; 根据所述日志序列的元素在聚类簇中的出现频率, 加权计算所述待解析 日志数据与 所 述候选聚类簇的相似度; 根据所述相似度和预设相似度阈值, 在所述候选聚类簇中确定所述待解析 日志数据 所 属的目标聚类簇 。 2.根据权利要求1所述的日志的聚类解析方法, 其特征在于, 获取待解析 日志数据的日 志序列, 包括: 按照所述待解析日志数据对应的日志模式中的分隔符对所述待解析日志数据进行处 理, 获得所述日志序列, 所述日志序列包括按顺序排列的多个元 素。 3.根据权利要求1所述的日志 的聚类解析方法, 其特征在于, 根据所述日志序列, 获得 所述待解析日志数据的常量特 征, 包括: 遍历所述日志序列, 提取所述日志序列存在于常量字典中的多个目标元素, 所述常量 字典包括多个元 素; 将所述多个目标 元素用预设连接符连接, 得到所述待解析日志数据的常量特 征。 4.根据权利要求1所述的日志 的聚类解析方法, 其特征在于, 根据所述常量特征, 确定 候选聚类簇, 包括: 在常量特征索引中, 搜索所述常量特征, 若搜索到所述常量特征, 获取所述常量特征对 应的多个候选聚类簇; 若 未搜索到所述常量特征, 以所述常量特征为新的常量特征索引, 并 在该新的常量特 征索引下建立 新的聚类簇 。 5.根据权利要求1所述的日志的聚类解析方法, 其特征在于, 根据 所述日志序列的元素 在聚类簇中的出现频率, 加权计算所述待解析日志数据与所述 候选聚类簇的相似度, 包括: 通过公式: 计算所述待解析日志数据与 所述候选聚类簇的相似度; 其中, 为待解析日志数据; c为候选聚类簇中的聚类簇; sim(l,c)为待解析日志数据 与候选聚类 簇c的相似度; l.token_set为待解析日志数据 的token_set; c.token_set为聚类簇 c的token_set; 为l.token_set和c.to ken_set共有的元 素; 为元素的权重; c.log_num为聚类簇所包 含日志的数量; c.token_fre[to ken]为候选聚类簇的字典结构中的元 素; len(c.to ken_set)为所述字典结构中的元 素的个数;权 利 要 求 书 1/2 页 2 CN 115221012 A 2token_set为进入该聚类簇的第一条日志数据对应的日志模式进行处理得到的元素集 合。 6.根据权利要求1所述的日志的聚类解析方法, 其特征在于, 根据 所述相似度和预设相 似度阈值, 在所述 候选聚类簇中确定所述待解析日志数据所属的目标聚类簇, 包括: 若所述相似度大于或者等于预设相似度阈值, 则根据所述待解析日志数据的日志序 列, 更新所述待解析日志数据所属的第一目标聚类簇的属性信息; 否则, 在所述待解析日志 数据的常量特征 的索引下建立第二 目标聚类簇, 并根据所述待解析日志数据的日志序列, 初始化所述第二目标聚类簇的属性信息 。 7.根据权利要求1所述的日志的聚类解析 方法, 其特 征在于, 还 包括: 获得所述目标聚类簇中的所有元 素在所述目标聚类簇所包 含日志数据中出现的频率; 根据所述频率, 计算所述目标聚类簇的置信度, 并输出。 8.一种日志的聚类解析装置, 其特 征在于, 包括: 获取模块, 用于获取待解析日志数据的日志序列; 处理模块, 用于根据所述日志序列, 获得 所述待解析日志数据的常量特 征; 根据所述常量特 征, 确定候选聚类簇; 根据所述日志序列的元素在聚类簇中的出现频率, 加权计算所述待解析 日志数据与 所 述候选聚类簇的相似度; 根据所述相似度和预设相似度阈值, 在所述候选聚类簇中确定所述待解析 日志数据 所 属的目标聚类簇 。 9.一种计算设备, 其特征在于, 包括: 处理器、 存储有计算机程序的存储器, 所述计算机 程序被处 理器运行时, 执 行如权利要求1至7任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 存储指令, 当所述指令在计算机上运行时, 使得计算机执 行如权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115221012 A 3

.PDF文档 专利 一种日志的聚类解析方法、装置及设备

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种日志的聚类解析方法、装置及设备 第 1 页 专利 一种日志的聚类解析方法、装置及设备 第 2 页 专利 一种日志的聚类解析方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:39:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。