全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210017396.5 (22)申请日 2022.01.07 (71)申请人 江苏微锐超算科技有限公司 地址 214000 江苏省无锡市滨湖区锦溪路 100号 (72)发明人 熊文兵 王磊 吴建元  (74)专利代理 机构 上海锻创知识产权代理有限 公司 314 48 代理人 韩冰 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/22(2019.01) G06F 16/242(2019.01) G06F 16/2455(2019.01) G06F 16/26(2019.01)G06F 16/28(2019.01) G06F 16/36(2019.01) G06F 16/182(2019.01) (54)发明名称 基于大数据的口令字典分析系统和方法 (57)摘要 本发明提供了一种基于大数据的口令字典 分析系统和方法, 包括: 数据获取模块: 获取本地 磁盘离线数据、 消息中间件解析数据和日志数 据; 数据预处理模块: 通过spark代码读取 获取的 数据, 并进行预处理, 包括数据清洗、 去重、 分组、 重构和标准化, 形成统一的算法模型; 数据存储 模块: 采用分库分表, 以数据仓库的形式, 对预处 理后的数据进行存储, 得到口令字典; 数据分析 模块: 通过spark代码读取数据仓库中的数据, 根 据应用场景选取算法模型中的对应口令进行分 析和运用。 本发明采用大数据分析技术, 解决了 海量口令字典数据查询速率慢、 分析困难的问 题。 权利要求书2页 说明书5页 附图1页 CN 114398355 A 2022.04.26 CN 114398355 A 1.一种基于大 数据的口令字典分析系统, 其特 征在于, 包括: 数据获取模块: 获取本地磁 盘离线数据、 消息中间件解析 数据和日志数据; 数据预处理模块: 通过spark代码读取获取的数据, 并进行预处理, 包括数据清洗、 去 重、 分组、 重构和标准 化, 形成统一的算法模型; 数据存储模块: 采用分库分表, 以数据仓库的形式, 对预处理后的数据进行存储, 得到 口令字典; 数据分析模块: 通过spark代码读取数据仓库中的数据, 根据应用场景选取算法模型中 的对应口令进行分析和运用。 2.根据权利要求1所述的基于大数据的口令字典分析系统, 其特征在于, 所述数据清洗 包括去除预设范围内的脏数据、 乱码和空字符串; 所述去重包括去除重复的字符串; 所述算法模型包括: 网站、 来源、 日期、 邮箱、 方向、 网络、 口令、 手机号和身份id。 3.根据权利要求1所述的基于大数据的口令字典分析系统, 其特征在于, 通过程序代码 spark读取源数据, 以操作性数据层命名, 存 储在大数据平台分布式文件系统中; 通过spark  sql运行框架进行各个源表关联抽取相关字段, 插入到宽表的模型中, 形成 数据仓库数据; 通过spark  sql或者hive  sql运行框架进行查询插 入, 形成数据集市层。 4.根据权利要求1所述的基于大数据的口令字典分析系统, 其特征在于, 口令分析包 括: 口令长度规律分析、 口令结构分析、 日期口令格式分析和键盘口令分析; 计算出每个字典口令字符串长度, 口令结构组成是否包含大小写字母、 特殊字符, 口令 中是否包 含日期格式, 字典口令的排布是否为键盘序列; 根据应用场景选取TOP  10口令, 供分析口令、 解 算系统运用。 5.根据权利要求1所述的基于大数据的口令字典分析系统, 其特征在于, 将分析结果指 标数据形成数据可视化看板, 供用户查看分析。 6.一种基于大 数据的口令字典分析 方法, 其特 征在于, 包括: 数据获取步骤: 获取本地磁 盘离线数据、 消息中间件解析 数据和日志数据; 数据预处理步骤: 通过spark代码读取获取的数据, 并进行预处理, 包括数据清洗、 去 重、 分组、 重构和标准 化, 形成统一的算法模型; 数据存储步骤: 采用分库分表, 以数据仓库的形式, 对预处理后的数据进行存储, 得到 口令字典; 数据分析步骤: 通过spark代码读取数据仓库中的数据, 根据应用场景选取算法模型中 的对应口令进行分析和运用。 7.根据权利要求6所述的基于大数据的口令字典分析方法, 其特征在于, 所述数据清洗 包括去除预设范围内的脏数据、 乱码和空字符串; 所述去重包括去除重复的字符串; 所述算法模型包括: 网站、 来源、 日期、 邮箱、 方向、 网络、 口令、 手机号和身份id。 8.根据权利要求6所述的基于大数据的口令字典分析方法, 其特征在于, 通过程序代码 spark读取源数据, 以操作性数据层命名, 存 储在大数据平台分布式文件系统中; 通过spark  sql运行框架进行各个源表关联抽取相关字段, 插入到宽表的模型中, 形成权 利 要 求 书 1/2 页 2 CN 114398355 A 2数据仓库数据; 通过spark  sql或者hive  sql运行框架进行查询插 入, 形成数据集市层。 9.根据权利要求6所述的基于大数据的口令字典分析方法, 其特征在于, 口令分析包 括: 口令长度规律分析、 口令结构分析、 日期口令格式分析和键盘口令分析; 计算出每个字典口令字符串长度, 口令结构组成是否包含大小写字母、 特殊字符, 口令 中是否包 含日期格式, 字典口令的排布是否为键盘序列; 根据应用场景选取TOP  10口令, 供分析口令、 解 算系统运用。 10.根据权利要求6所述的基于大数据的口令字典分析方法, 其特征在于, 将分析结果 指标数据形成数据可视化看板, 供用户查看分析。权 利 要 求 书 2/2 页 3 CN 114398355 A 3

.PDF文档 专利 基于大数据的口令字典分析系统和方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于大数据的口令字典分析系统和方法 第 1 页 专利 基于大数据的口令字典分析系统和方法 第 2 页 专利 基于大数据的口令字典分析系统和方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。