(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210583124.1
(22)申请日 2022.05.25
(71)申请人 深圳云创数安科技有限公司
地址 518101 广东省深圳市南 山街道梦海
大道5033号前海卓越金融中心(一期)
8号楼307
(72)发明人 白云
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
专利代理师 高杰 郭梦霞
(51)Int.Cl.
G06F 21/60(2013.01)
G06F 21/62(2013.01)
G06F 21/64(2013.01)
G06K 9/62(2022.01)
(54)发明名称
基于大数据 的数据安全处理方法、 装置、 设
备及存储介质
(57)摘要
本发明涉及数据安全技术, 揭露了一种基于
大数据的数据安全处理方法, 包括: 对请求数据
进行量化处理, 得到数据向量集; 基于预构建的
随机森林分类模 型对数据向量集从数据所有权、
业务类型、 敏感程度及数据动静态维度进行三级
分类, 得到请求数据的分级类别及第三数据分类
集; 利用UDF函数集成加密及拦截算法, 得到集成
加密机; 基于规则库, 根据关键字及分级类别, 从
所述集成加密机中选择对应的算法对第三数据
分类集进行数据安全处理, 得到安全数据; 本发
明还提出一种基于大数据的数据安全处理装置、
设备及存储介质。 此外, 本发明还涉及区块链技
术, 分级类别可存储于区块链的节点。 本发明可
以解决进行数据安全处理的数据安全性低的问
题。
权利要求书3页 说明书12页 附图4页
CN 114996731 A
2022.09.02
CN 114996731 A
1.一种基于大 数据的数据安全处 理方法, 其特 征在于, 所述方法包括:
当接收到业务发送的数据请求 时, 获取请求数据, 对所述请求数据进行量化处理, 得到
数据向量 集;
提取所述数据向量集中的数据所有权信息向量集, 根据所述数据所有权信息向量集,
基于预构建的第一随机森林分类模型对所述数据向量集进 行第一次分类, 得到所述请求数
据的第一类别及第一数据分类集;
提取所述第 一数据分类集中的业务类型向量集及敏感程度向量集, 根据 所述业务类型
向量集及所述敏感程度向量集, 基于预构建的第二随机森林分类模型对所述第一数据分类
集进行分类, 得到所述请求数据的第二类别及第二数据分类集;
提取所述第 二数据分类集中的静态数据集向量及动态数据向量集, 根据 所述静态数据
向量集及所述动态数据向量集, 基于预构建的第三随机森林分类模型对所述第二数据分类
集进行分类, 得到所述请求数据的第三类别及第三数据分类集;
利用UDF函数集成加密 及拦截算法, 得到集成加密机;
提取所述第三数据分类集中的关键字, 从预设缓存中获取预设规则库, 基于所述规则
库, 根据所述关键字、 所述第一类别、 所述第二类别及所述第三类别, 从所述集成加密机中
选择对应的算法对所述第三数据分类集中的数据进行数据安全处理, 得到安全数据, 并将
所述安全数据返回给对应的业 务端。
2.如权利要求1所述的基于大数据的数据安全处理方法, 其特征在于, 所述基于预构建
的第一随机森林分类模型对所述数据向量集进 行第一次分类, 得到所述请求数据的第一类
别及第一数据分类集, 包括:
获取所述第一随机森林分类模型中的多个决策树及每个决策树中至少一层节点的决
策维度索引和决策 条件;
根据所述第 一随机森林分类模型中第 一节点的决策维度索引, 对所述数据所有权信 息
向量集进 行特征提取, 得到所述数据所有权信息向量集在所述第一节点的分裂维度上的特
征值;
根据所述第 一节点的决策条件对所述特征值进行判断, 根据判断结果从所述第 一节点
的分支节点中确定遍历的第二节点;
根据当前 决策维度索引和决策条件, 继续提取所述数据 所有权信 息向量集在所述第 二
节点的特征值并确定待遍历的下一节点, 直至所述决策树遍历完成, 得到所述数据向量集
的第一类别, 根据所述第一类别将所述数据向量 集分为第一数据分类集。
3.如权利要求1所述的基于大数据的数据安全处理方法, 其特征在于, 所述利用UDF函
数集成加密 及拦截算法, 得到集成加密机, 包括:
创建通用加密算法及拦截算法的工具类集;
利用UDF函数将所述工具类集封装为 集成加密机 。
4.如权利要求1所述的基于大数据的数据安全处理方法, 其特征在于, 所述基于所述规
则库, 根据所述关键字、 所述第一类别、 所述第二类别及所述第三类别, 从所述集成加密机
中选择对应的算法对所述第三数据分类集中的数据进行数据安全处理, 得到安全数据, 包
括:
基于所述规则库, 根据 所述第一类别、 所述第 二类别、 所述第三类别 选择对应的数据安权 利 要 求 书 1/3 页
2
CN 114996731 A
2全处理策略;
根据所述数据安全处理策略及所述关键字, 利用预设的正则表达 式选择对应的数据安
全处理方法, 其中所述数据安全处 理方法包括:加解密、 脱敏、 拦截及数字签名;
根据所述数据安全处理方法从所述集成加密机 中选择对应的算法, 对所述第 三数据分
类集中的数据进行 数据安全处 理, 得到安全数据。
5.如权利要求1所述的基于大数据的数据安全处理方法, 其特征在于, 所述从预设缓存
中获取预设规则库之前, 所述方法还 包括:
周期性地从预设数据治理平台中获取的预设规则库, 并将所述预设规则库 更新到预设
缓存。
6.如权利要求1所述的基于大数据的数据安全处理方法, 其特征在于, 所述对所述请求
数据进行量 化处理, 得到数据向量 集, 包括:
将所述请求数据进行分词处 理, 得到词语集 合;
利用预构建的量 化工具将所述词语集 合进行量 化, 得到词向量 集合;
根据预设的位置编码, 对所述词向量 集合进行顺序标注, 得到顺序词向量 集合;
根据预设的格 式化规则, 对所述顺序词向量集合进行拆分, 并将拆分结果进行排列, 得
到矩阵向量的数据向量 集。
7.如权利要求2所述的基于大数据的数据安全处理方法, 其特征在于, 所述基于预构建
的第一随机森林分类模型对所述数据向量集进 行第一次分类, 得到所述请求数据的第一类
别及第一数据分类集之前, 所述方法还 包括:
从所述数据所有权信息向量集中逐个选取其中一个数据所有权信息向量作为目标数
据所有权信息向量;
将所述目标数据 所有权信 息向量作为参数对预设的决策函数进行赋值, 并利用赋值后
的决策函数作为决策 条件, 生成决策树;
汇总得到的所述决策树, 得到所述第一随机森林分类模型。
8.一种基于大 数据的数据安全处 理装置, 其特 征在于, 所述装置包括:
量化模块, 用于当接收到业务发送的数据请求 时, 获取请求数据, 对所述请求数据进行
量化处理, 得到数据向量 集;
分类模块, 用于提取所述数据向量集中的数据所有权信息向量集, 根据所述数据所有
权信息向量集, 基于预构建的第一 随机森林分类模型对所述数据向量集进行第一次分类,
得到所述请求数据的第一类别 及第一数据分类集; 提取所述第一数据分类集中的业务类型
向量集及敏感程度向量集, 根据所述业务类型向量集及所述敏感程度向量集, 基于预构建
的第二随机森林分类模型对所述第一数据分类集进行分类, 得到所述请求数据的第二类别
及第二数据分类集; 提取所述第二数据分类集中的静态数据集向量及动态数据向量集, 根
据所述静态数据向量集及所述动态数据向量集, 基于预构建的第三随机森林分类模型对所
述第二数据分类集进行分类, 得到所述请求数据的第三类别及第三数据分类集;
加密机集成模块, 用于利用UDF函数集成加密 及拦截算法, 得到集成加密机;
数据安全处理模块, 用于提取所述第三数据分类集中的关键字, 从预设缓存中获取预
设规则库, 基于所述规则库, 根据所述关键字、 所述第一类别、 所述第二类别及所述第三类
别, 从所述集成加密机中选择对应的算法对所述第三数据分类集中的数据进 行数据安全处权 利 要 求 书 2/3 页
3
CN 114996731 A
3
专利 基于大数据的数据安全处理方法、装置、设备及存储介质
安全报告 >
其他 >
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:39:03上传分享