全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111260642.1 (22)申请日 2021.10.28 (71)申请人 福州外语外贸学院 地址 350202 福建省福州市长乐市首占新 区育环路28号 (72)发明人 李秋缘  (74)专利代理 机构 厦门智慧呈 睿知识产权代理 事务所(普通 合伙) 35222 代理人 杨唯 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/25(2019.01) G06F 16/28(2019.01) G06N 3/04(2006.01) G06N 20/00(2019.01) (54)发明名称 一种大数据挖掘处理方法及装置 (57)摘要 本发明公开了一种大数据挖掘处理方法及 装置,包括以下步骤: 数据采集、 数据预处理、 数 据分类、 数据分析和最终生成。 通过对数据挖掘 库内部的数据进行预处理, 在数据挖掘处理时能 够按照分类顺序在数据挖掘库内部依次对数据 进行挖掘处理, 而且在对预处理后的数据再次进 行分类, 使得数据能够按照一定的分类模式划分 为不同的类别, 不仅全面覆盖了所有信息, 使得 在数据挖掘处理时能够照顾到全部数据, 而且提 高了数据 挖掘处理的效率。 权利要求书2页 说明书4页 附图3页 CN 114116831 A 2022.03.01 CN 114116831 A 1.一种大 数据挖掘处理方法, 其特 征在于: 包括以下步骤: S1、 数据采集, 使用数据采集模块通过手动采集和借助接口自动采集的方法将采集到 的数据存放在数据挖掘库内, 通过预先设定的种子链接集, 利用HTRP协 议访问并下载页面, 再利用各种技术对页面与主题之间的联系进行分析并提取出待访问的链接以对数据进行 采集, 然后建立数据挖掘库, 将采集到的数据存放在数据挖掘库内, 最后在挖掘数据库中对 数据对象的特 征进行抽取, 对数据内容进行分解, 以组成数据的特 征集合对数据进行显示; S2、 数据预处理, 使用数据处理模块从数据挖掘库中提取一定范围的数据进行预处理, 然后提取将预 处理后的数据的行为特征向量, 并根据行为特征向量对数据进 行索引分析得 到目标数据集, 根据数据的功能类型和数据特点对目标数据集进行挖掘, 然后对挖掘的结 果进行解释和评价, 最后将生成的报告通过中央处 理器和数据分析模块发送至用户端; S3、 数据分类, 数据处理模块对预处理后的数据进行分类, 首先按照预处理数据对象的 共同特点按照一定的分类模式将其划分为不同的类别, 然后通过分类将数据项映射到某个 给定的类别中, 再针对每个类别中的数据相似性和差异性将该类别中的数据分为几个类 型; S4、 数据分析, 数据分类完成后, 数据处理模块将数据进行去噪和归一化处理, 然后结 合Sql查询、 交互查询和搜索查询的方式并利用数据挖掘软件将数据返回至数据挖掘库内 部进行数据挖掘, 并得到挖掘结果; S5、 最终生成, 数据分析模块将挖掘结果进行建模, 数据分析模块先用一部分数据 结果 建立模型, 然后用剩下的数据来测试和验证该模型, 并生结果报告发送至用户端。 2.根据权利要求1所述的一种大数据挖掘处理方法, 其特征在于: 所述S1中在使用组成 数据的特征集合对数据进行显示后, 需要对数据的相似度进行计算, 根据数据特征重合的 比例来确定是否出现重复数据。 3.根据权利要求1所述的一种大数据挖掘处理方法, 其特征在于: 所述S2中预处理步骤 包括: S21、 检查 一定范围的数据中各个数据的完整性和一 致性; S22、 将复杂的数据转 化为单一的或者便 于处理的数据构型; S23、 对数据过 滤去噪以得到有用的数据。 4.根据权利要求1所述的一种大数据挖掘处理方法, 其特征在于: 所述S3 中数据分类模 式包括关联规则法、 神经网络方法和序列模式发现方法。 5.根据权利要求1所述的一种大数据挖掘处理方法, 其特征在于: 所述S4中数据挖掘的 方法包括机器学习方法、 统计方法、 神经网络方法和数据库方法。 6.根据权利要求1所述的一种大数据挖掘处理方法, 其特征在于: 所述S5 中需要将剩下 来的数据再分出一部分独立的数据集来验证模 型的准确性, 并且数据分析模块会根据数据 挖掘的结果以及图像化的模型对数据进行 预测性分析, 然后同步发送至用户端。 7.一种大数据挖掘处理装置, 包括处理单元、 中央处理器和数据分析模块, 其特征在 于: 所述处 理单元包括数据采集模块、 信息监控 模块、 数据 挖掘库和数据处 理模块; 所述信息监控模块与 数据采集模块通讯连接, 所述数据采集模块与 数据挖掘库通讯连 接, 所述数据挖掘库与数据处理模块通讯连接, 所述中央模块分别与数据采集模块、 信息监 控模块、 数据 挖掘库和数据处 理模块通讯连接, 所述数据分析模块与中央处 理器通讯连接 。权 利 要 求 书 1/2 页 2 CN 114116831 A 28.根据权利要求7所述的一种大数据挖掘处理装置, 其特征在于: 所述数据采集模块用 于从海量的网页中提取一定范围内的数据, 并且通过预先设定的种子链接集, 利用HTRP协 议访问并下载页面, 再利用各种技术对页面与主题之 间的联系进 行分析并提取出待访问的 链接以对数据进行采集; 所述信息监控模块用于在数据采集的过程中明确数据采集的时间频率、 采集的关键信 息点、 控制图分析类型、 控制指标和异常处 理信息; 所述数据 挖掘库是对数据进行存放、 分类、 合并、 整合和数据 挖掘的地 点; 所述数据处理模块用于从数据挖掘库中把数据提取出来, 然后经过ETL组织成适合分 析挖掘算法使用宽表, 然后利用数据 挖掘软件进行挖掘; 所述数据分析模块用于根据挖掘所得的数据进行建模, 并且在模型建立完成后对模型 的价值进行评价、 结束, 然后将模型提供 给分析人员作参 考。权 利 要 求 书 2/2 页 3 CN 114116831 A 3

.PDF文档 专利 一种大数据挖掘处理方法及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种大数据挖掘处理方法及装置 第 1 页 专利 一种大数据挖掘处理方法及装置 第 2 页 专利 一种大数据挖掘处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:00:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。