(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210587392.0 (22)申请日 2022.05.26 (71)申请人 方盈金泰科技 (北京) 有限公司 地址 102300 北京市门头沟区石龙西路58 号永定镇政 府办公楼YD169 (72)发明人 郑海  (74)专利代理 机构 北京棘龙知识产权代理有限 公司 11740 专利代理师 张庆龙 (51)Int.Cl. G06F 21/62(2013.01) (54)发明名称 一种支持算法推荐的高并发HBase动态脱 敏 方法和系统 (57)摘要 一种支持算法推荐的高并发HBase动态脱 敏 方法包括: 截获数据访 问请求者的HBase查询访 问请求; 解析数据访问请求者的用户名和访问的 目标数据; 判断访问的目标数据是否包含敏感字 段; 若包含, 多线程分批抽取访问 的目标数据, 用 推荐的脱敏算法对敏感字段脱敏, 将脱敏后的数 据发送给数据访问请求者; 反之将目标数据发送 给数据访问请求者; 推荐脱敏算法的方法为: 管 理员根据数据类型及数据访问请求者的身份设 定准则层指标的优先级; 利用层次分析法通过设 定的优先级推荐脱敏算法。 本发 明的方法可以自 动推荐脱敏算法, HBase脱敏引擎根据推荐的算 法对数据进行高并发脱敏处理, 解决HBase数据 访问因实时、 随机、 数据量大的特点导致的数据 脱敏慢的问题。 权利要求书1页 说明书5页 附图1页 CN 114925398 A 2022.08.19 CN 114925398 A 1.一种支持算法推荐的高并发HBase动态脱敏 方法, 其特 征在于, 所述方法包括: 截获数据访问请求 者的HBase查询访问请求; 解析数据访问请求 者的用户名和访问的目标 数据; 判断数据访问请求 者访问的目标 数据是否包 含敏感字段; 若包含, 多线程分批对目标数据进行抽取, 采用推荐的脱敏算法对敏感字段进行脱敏, 并将脱敏后的目标数据发送给数据访问请求者; 若不包含, 将所述 目标数据发送给数据访 问请求者; 所述推荐 脱敏算法的具体方法为: 管理员根据数据类型及数据访 问请求者的身份设定准则层指标的优先级, 其中, 准则 层指标包括: 时间 复杂度、 空间 复杂度、 隐私保护度、 数据可用性、 数据关联性; 利用层次分析法通过管理员设定的准则层指标的优先级为数据访问请求者访问的目 标数据推荐 脱敏算法。 2.如权利要求1所述的方法, 其特征在于, 所述脱敏算法包括: K ‑匿名算法、 I ‑ Diversity算法、 t ‑Closeness算法、 L‑多样算法和差分隐私算法。 3.如权利要求1所述的方法, 其特 征在于, 所述敏感字段为结构化数据。 4.如权利要求1所述的方法, 其特征在于, 通过匹配查询判断数据访问请求者访问的目 标数据是否包 含敏感字段。 5.如权利要求1所述的方法, 其特征在于, 多线程分批对目标数据进行抽取的方法为: 将总量为M的所述目标 数据分为 N份, 每个线程处 理M/N份的数据。 6.如权利要求1所述的方法, 其特征在于, 所述管理员根据 数据类型设定准则层指标的 优先级包括: 对于隐私数据, 隐私保护度的优先级最高, 其中, 隐私数据包括手机号、 身份 证、 地址、 账号; 对于待计算的字 符串类的数据, 数据可用性的优先级最高; 所述管理员根据 数据访问请求者的身份设定准则层指标 的优先级包括: 对于实时访问用户, 数据时间复杂 度的优先级最高; 对于数据统计分析人员, 数据可用性的优先级最高; 对于系统的运维人 员, 数据的隐私保护度的优先级最高。 7.一种支持算法推荐的高并发HBase动态脱敏的系统, 其特 征在于, 所述系统包括: 脱敏策略模块, 脱敏策略模块用于预置数据访问请求者的用户名、 访问的目标数据, 并 利用层次分析法通过管理员设定的准则层指标 的优先级为数据访问请求者访问的目标数 据推荐脱敏算法; 解析模块, 解析模块用于截获数据访问请求者对HBase的访问请求, 并解析数据访问请 求者的用户名及 访问的目标 数据; 判断模块, 判断模块用于将脱敏策略模块预置的数据访 问请求者的用户名、 访 问的目 标数据与解析模块截获的数据访问请求者的用户名及访问的目标数据进 行匹配, 判断数据 访问请求者访问的目标数据是否包含敏感字段; 若包含则执行脱敏模块, 若不包含则跳过 脱敏模块 直接返回查询数据; 脱敏模块, 脱敏模块用于使用脱敏策略模块为所述数据访问请求者访问的目标数据推 荐的脱敏算法为所述敏感字段脱敏; 返回模块, 返回模块用于将访问结果返回给 数据访问请求 者。权 利 要 求 书 1/1 页 2 CN 114925398 A 2一种支持算法 推荐的高 并发HBase动态脱敏方 法和系统 技术领域: [0001]本发明涉及信息安全技术领域, 具体涉及一种支持算法推荐的高并发HBase动态 脱敏方法和系统。 背景技术: [0002]HBase可以支持千万的QPS、 PB级别的存储, 主要应用在需要实时读写、 随机访问超 大规模数据集场景中, 但HBase数据中很可能包含敏感数据, 业务人员操作和访问这些数 据, 如果处理不当极有可能发生数据泄露。 虽然HBase在数据安全方面提供了SSL连接方式 增加了数据传输的安全性, 但HBase本身并不识别 敏感数据, 也不对敏感数据进行处理, 因 此存放在HBase中的敏感数据极易被泄 露。 [0003]数据脱敏采用专门的脱敏算法对敏感数据进行变形、 屏蔽、 替换、 随机化、 加密, 将 敏感数据转化为虚构数据, 隐藏了 真正的隐私信息, 为数据的安全使用提供了基础保障。 动 态脱敏适用于不脱离生产环境, 对敏感数据的查询和调用结果进行实时脱敏, 动态脱敏能 够对生产库返回的数据进 行实时脱敏 处理, 确保返回数据可用而安全。 针对上述问题, 申请 号为CN201610885912.0的发明申请给出了一种基于HBase数据安全处理方法和系统, 主要 是通过数据加密技术保证存储在Hadoop上的数据是加密数据, 但用户获取的是明文数据, 不能确保用户访问敏感数据的安全性。 同时, HBase数据访问具有实时、 随机、 数据量大等特 点, 对HBase数据进行动态脱敏必然对性能有一定的要求, 并且在数据量不 断增长的同时, 被收集和利用的数据维度和种类不断增加, 需要用户指定脱敏算法的运行方式将逐渐难以 为继。 因此, 目前如何不由用户指 定而是自动推荐脱 敏算法对Hbase数据进 行批量高并发动 态脱敏是目前亟需解决的技 术难题。 发明内容: [0004]针对以上问题, 本发明设计了一种支持算法推荐的高并发HBase动态脱敏方法和 系统, 根据用户对数据的要求自动为用户推荐算法, 并采用多线程抽取数据的方式, 对 HBase数据进行批量高并发动态脱敏。 [0005]一种支持算法推荐的高并发HBase动态脱敏 方法包括: [0006]截获数据访问请求 者的HBase查询访问请求; [0007]解析数据访问请求 者的用户名和访问的目标 数据; [0008]判断数据访问请求 者访问的目标 数据是否包 含敏感字段; [0009]若包含, 多线程分批对目标数据进行抽 取, 采用推荐的脱敏算法对敏感字段进行 脱敏, 并将脱敏后的目标数据发送给数据访问请求者; 若不包含, 将所述目标数据发送给数 据访问请求 者。 [0010]所述推荐 脱敏算法的具体方法为: [0011]管理员根据数据类型及数据访问请求者的身份设定准则层指标的优先级, 其中, 准则层指标包括: 时间复杂度、 空间复杂度、 隐私保护度、 数据可用性、 数据关联性; 通过分说 明 书 1/5 页 3 CN 114925398 A 3

.PDF文档 专利 一种支持算法推荐的高并发HBase动态脱敏方法和系统

安全报告 > 其他 > 文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种支持算法推荐的高并发HBase动态脱敏方法和系统 第 1 页 专利 一种支持算法推荐的高并发HBase动态脱敏方法和系统 第 2 页 专利 一种支持算法推荐的高并发HBase动态脱敏方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生2024-02-07 20:39:01上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。