专利基于大数据的口令字典分析系统和方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210017396.5 (22)申请日 2022.01.07 (71)申请人江苏微锐超算科技有限公司地址 214000 江苏省无锡市滨湖区锦溪路 100号 (72)发明人熊文兵　王磊　吴建元　 (74)专利代理机构上海锻创知识产权代理有限公司 314 48 代理人韩冰 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/22(2019.01) G06F 16/242(2019.01) G06F 16/2455(2019.01) G06F 16/26(2019.01)G06F 16/28(2019.01) G06F 16/36(2019.01) G06F 16/182(2019.01) (54)发明名称基于大数据的口令字典分析系统和方法 (57)摘要本发明提供了一种基于大数据的口令字典分析系统和方法，包括：数据获取模块：获取本地磁盘离线数据、消息中间件解析数据和日志数据；数据预处理模块：通过spark代码读取获取的数据，并进行预处理，包括数据清洗、去重、分组、重构和标准化，形成统一的算法模型；数据存储模块：采用分库分表，以数据仓库的形式，对预处理后的数据进行存储，得到口令字典；数据分析模块：通过spark代码读取数据仓库中的数据，根据应用场景选取算法模型中的对应口令进行分析和运用。本发明采用大数据分析技术，解决了海量口令字典数据查询速率慢、分析困难的问题。权利要求书2页说明书5页附图1页 CN 114398355 A 2022.04.26 CN 114398355 A 1.一种基于大数据的口令字典分析系统，其特征在于，包括：数据获取模块：获取本地磁盘离线数据、消息中间件解析数据和日志数据；数据预处理模块：通过spark代码读取获取的数据，并进行预处理，包括数据清洗、去重、分组、重构和标准化，形成统一的算法模型；数据存储模块：采用分库分表，以数据仓库的形式，对预处理后的数据进行存储，得到口令字典；数据分析模块：通过spark代码读取数据仓库中的数据，根据应用场景选取算法模型中的对应口令进行分析和运用。 2.根据权利要求1所述的基于大数据的口令字典分析系统，其特征在于，所述数据清洗包括去除预设范围内的脏数据、乱码和空字符串；所述去重包括去除重复的字符串；所述算法模型包括：网站、来源、日期、邮箱、方向、网络、口令、手机号和身份id。 3.根据权利要求1所述的基于大数据的口令字典分析系统，其特征在于，通过程序代码 spark读取源数据，以操作性数据层命名，存储在大数据平台分布式文件系统中；通过spark sql运行框架进行各个源表关联抽取相关字段，插入到宽表的模型中，形成数据仓库数据；通过spark sql或者hive sql运行框架进行查询插入，形成数据集市层。 4.根据权利要求1所述的基于大数据的口令字典分析系统，其特征在于，口令分析包括：口令长度规律分析、口令结构分析、日期口令格式分析和键盘口令分析；计算出每个字典口令字符串长度，口令结构组成是否包含大小写字母、特殊字符，口令中是否包含日期格式，字典口令的排布是否为键盘序列；根据应用场景选取TOP 10口令，供分析口令、解算系统运用。 5.根据权利要求1所述的基于大数据的口令字典分析系统，其特征在于，将分析结果指标数据形成数据可视化看板，供用户查看分析。 6.一种基于大数据的口令字典分析方法，其特征在于，包括：数据获取步骤：获取本地磁盘离线数据、消息中间件解析数据和日志数据；数据预处理步骤：通过spark代码读取获取的数据，并进行预处理，包括数据清洗、去重、分组、重构和标准化，形成统一的算法模型；数据存储步骤：采用分库分表，以数据仓库的形式，对预处理后的数据进行存储，得到口令字典；数据分析步骤：通过spark代码读取数据仓库中的数据，根据应用场景选取算法模型中的对应口令进行分析和运用。 7.根据权利要求6所述的基于大数据的口令字典分析方法，其特征在于，所述数据清洗包括去除预设范围内的脏数据、乱码和空字符串；所述去重包括去除重复的字符串；所述算法模型包括：网站、来源、日期、邮箱、方向、网络、口令、手机号和身份id。 8.根据权利要求6所述的基于大数据的口令字典分析方法，其特征在于，通过程序代码 spark读取源数据，以操作性数据层命名，存储在大数据平台分布式文件系统中；通过spark sql运行框架进行各个源表关联抽取相关字段，插入到宽表的模型中，形成权　利　要　求　书 1/2 页 2 CN 114398355 A 2数据仓库数据；通过spark sql或者hive sql运行框架进行查询插入，形成数据集市层。 9.根据权利要求6所述的基于大数据的口令字典分析方法，其特征在于，口令分析包括：口令长度规律分析、口令结构分析、日期口令格式分析和键盘口令分析；计算出每个字典口令字符串长度，口令结构组成是否包含大小写字母、特殊字符，口令中是否包含日期格式，字典口令的排布是否为键盘序列；根据应用场景选取TOP 10口令，供分析口令、解算系统运用。 10.根据权利要求6所述的基于大数据的口令字典分析方法，其特征在于，将分析结果指标数据形成数据可视化看板，供用户查看分析。权　利　要　求　书 2/2 页 3 CN 114398355 A 3

专利 基于大数据的口令字典分析系统和方法

专利基于大数据的口令字典分析系统和方法