DB52-T 1126-2016 政府数据 数据脱敏工作指南

ICS 35.240 L 70 DB52 贵州省地方标准 DB 52/T 1126—2016 政府数据数据脱敏工作指南 Governmental Data Work Instructions for Data Masking 2016 - 09 - 28 发布贵州省质量技术监督局 2016 - 09 - 28 实施发布 DB52/T 1126—2016 目次前言 ................................................................................ II 1 范围 .............................................................................. 1 2 术语和定义 ........................................................................ 1 3 概述 .............................................................................. 1 4 数据脱敏全生命周期过程 ............................................................ 4 I DB52/T 1126—2016 前言本标准按照GB/T 1.1—2009《标准化工作导则第1部分：标准的结构和编写》给出的规则起草。请注意：本文件的某些内容可能涉及专利，本文件的发布机构不承担识别这些专利的责任。本标准由贵州省贵阳市大数据发展管理委员会提出。本标准由贵州省大数据标准化技术委员会归口。本标准起草单位：中国电子技术标准化研究院、贵阳市信息产业发展中心、云上贵州大数据产业发展有限公司、阿里云计算有限公司。本标准主要起草人：王惠莅、黄明峰、刘贤刚、范科峰、叶润国、陈雪秀、任泽君、刘军。 II DB52/T 1126—2016 政府数据数据脱敏工作指南 1 范围本标准规定了政府数据的脱敏原则、脱敏方法和脱敏过程，可为数据脱敏工作的规划、实施和管理提供指导。本标准适用于政府结构化数据的脱敏工作，包括但不限于数据脱敏的提供商、用户、评测机构和监管机构。 2 术语和定义下列术语和定义适用于本文件。 2.1 数据脱敏从原始环境向目标环境进行敏感数据交换的过程中，通过一定方法消除原始环境数据中的敏感信息，并保留目标环境业务所需的数据特征或内容的数据处理过程。 3 概述 3.1 数据脱敏原则数据脱敏工作不仅要确保敏感信息被去除，还需要尽可能的平衡脱敏所花费的代价、使用方的业务需求等多个因素。因此，为了确保数据脱敏的过程、代价可控，得到的结果正确且满足业务需要，在实施数据脱敏时，应从技术和管理两方面出发，符合以下原则。 3.1.1 3.1.1.1 技术原则有效性数据脱敏的最基本原则就是要去掉数据中的敏感信息，保证数据安全，这是对数据脱敏工作最基本的要求。有效性要求经过数据脱敏处理后，原始信息中包含的敏感信息已被移除，无法通过处理后的数据得到敏感信息；或者需通过巨大经济代价、时间代价才能得到敏感信息，其成本已远远超过数据本身的价值。此外，在处理敏感信息时，应注意根据原始数据的特点和应用场景，选择合适的脱敏方法。 3.1.1.2 真实性 3.1.1.2.1 由于脱敏后的数据需要在相关业务系统、测试系统等非原始环境中继续使用，因此需保证脱敏后的数据应尽可能的真实体现原始数据的特征，且应尽可能多的保留原始数据中的有意义信息，以减小对使用该数据的系统的影响。 1 DB52/T 1126—2016 3.1.1.2.2 真实性要求脱敏过程需保持用于后续分析的数据真实特征，以助于实现数据相关业务需求。包括但不限于数据结构特征和数据统计特征：数据结构特征是指数据本身的构成遵循一定的规则（例如身份证号由地区编码、生日、顺序号和校验码组成）；数据统计特征是指大量的数据记录所隐含的统计趋势（例如开户人地区分布、年龄分布等）。 3.1.1.2.3 为达到真实性要求，在开展数据脱敏工作时，一般情况下应注意： a) 保持原数据的格式； b) 保持原数据的类型； c) 保持原数据之间的依存关系 d) 保持语义完整性； e) 保持引用完整性； f) 保持数据的统计、聚合特征； g) 保持频率分布； h) 保持唯一性。 3.1.1.3 高效性应保证数据脱敏的过程可通过程序自动化实现，可重复执行。在不影响有效性的前提下，需注意平衡脱敏的力度与所花费的代价，将数据脱敏的工作控制在一定的时间和经济成本内。本质上，高效性是成本和安全性相互作用的结果，在确保一定安全底线的前提下，尽可能减少数据脱敏工作所花费的额外代价。 3.1.1.4 稳定性由于原始数据间存在关联性，为保障数据使用者可正常使用和分析数据，因此数据脱敏时需保证对相同的原始数据，在各输入条件一致的前提下，无论脱敏多少次，其最终结果数据是相同的。如最终结果是不稳定的，可能导致数据使用者无法将本有联系的数据正确的进行关联，从而造成数据的使用出现问题。例如，某ID有两条记录，但是由于脱敏结果的不稳定，得到了两个不同的脱敏ID1和ID2，则在使用该数据时，就无法得知ID1和ID2其实是同一个ID，从而使得数据分析结果出现错误。 3.1.1.5 可配置性同一份原始数据，可能被用于不同的数据分析场景，由于不同场景下的安全要求不同，数据脱敏时的处理方式和处理字段也不尽相同。因此需通过配置的方式，按照输入条件不同生成不同的脱敏结果，从而可以方便的按数据使用场景等因素为不同的最终用户提供不同的脱敏数据。 3.1.2 3.1.2.1 管理原则敏感信息识别 3.1.2.1.1 在进行数据脱敏前，首先应完整的梳理待处理数据中包含的所有信息分类（包括单条记录中每一个项目的内容/格式、多条记录联合后包含的统计特征等），然后明确其中哪些信息分类属于敏感信息，并标注出其敏感程度、泄露后可能造成的后果、应急预案等。 3.1.2.1.2 需要注意的是，有些信息本身可能并不直接是敏感信息，但是可通过与其他一些信息结合后推断出敏感信息，此时也应将此类信息纳入数据脱敏的范围。 3.1.2.2 2 安全可控 DB52/T 1126—2016 经过数据脱敏处理后，已知的敏感信息已经被隐藏和处理，但脱敏后的数据由于保持了原始数据的部分统计特征和结构特征等信息，仍可能存在一定的敏感信息泄漏风险。因此，仍然需要采取合适的方式控制知悉范围，通过恰当的安全管理手段，防止数据外泄。 3.1.2.3 安全审计在数据脱敏的各个阶段需加入安全审计机制，严格、详细记录数据处理过程中的相关信息，形成完整数据处理记录，用于后续问题排查与数据追踪分析，一旦发生泄密事件可追溯到是在哪个数据处理环节发生的。 3.1.2.4 代码安全对于执行数据脱敏的程序和代码模块，应当进行代码审查，并对上线前的程序和模块进行代码安全扫描，确保执行数据脱敏过程的程序安全可靠，无漏洞和后门。 3.2 数据脱敏常用方法 3.2.1 泛化技术泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据，泛化后的数据具有不可逆性，具体的技术方法包括但不限于： a) 数据截断：直接舍弃业务不需要的信息，仅保留部分关键信息，例如将手机号码13500010001 截断为135； b) 日期偏移取整：按照一定粒度对时间进行向上或向下偏移取整，可在保证时间数据一定分布特征的情况下隐藏原始时间，例如将时间20150101 01:01:09按照5秒钟粒度向下取整得到 20150101 01:01:05； c) 规整：将数据按照大小规整到预定义的多个档位，例如将客户资产按照规模分为高、中、低三个级别，将客户资产数据用这三个级别代替。 3.2.2 抑制技术抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换，又称为隐藏技术，具体的技术方法包括但不限于： a) 掩码：用通用字符替换原始数据中的部分信息，例如将手机号码13500010001经过掩码得到 135****0001，掩码后的数据长度与原始数据一样。 3.2.3 扰乱技术扰乱是指通过加入噪声的方式对原始数据进行干扰，以实现对原始数据的扭曲、改变，扰乱后的数据仍保留着原始数据的分布特征，具体的技术方法包括但不限于： a) 加密：使用加密算法对原始数据进行加密，例如将编号12345加密为abcde； b) 重排：将原始数据按照特定的规则进行重新排列，例如将序号12345重排为54321； c) 替换：按照特定规则对原始数据进行替换，如统一将女性性别替换为F； 3 DB52/T 1126—2016 d) 重写：参考原数据的特征，重新生成数据。重写与整体替换较为类似，但替换后的数据与原始数据通常存在特定规则的映射关系，而重写生成的数据与原始数据则一般不具有映射关系。例如对雇员工资，可使用在一定范围内随机生成的方式重新构造数据； e) 均化：针对数值性的敏感数据，在保证脱敏后数据集总值或平均值与原数据集相同的情况下，改变数值的原始值； f) 3.2.4 散列: 即对原始数据取散列值，使用散列值来代替原始数据。有损技术有损是指通过损失部分数据的方式来保护整个敏感数据集，适用于数据集的全部数据汇总后才构成敏感信息的场景，具体的技术方法包括但不限于： a) 限制返回行数：仅仅返回可用数据集合中一定行数的数据，例如商品配方数据，只有在拿到所有配方数据后才具有意义，可在脱敏时仅返回一行数据； b) 限制返回列数：仅仅返回可用数据集合中一定列数的数据，例如在查询人员基本信息时，对于某些敏感列，不包含在返回的数据集中。 4 数据脱敏全生命周期过程完整的数据脱敏全生命周期过程应包括制定数据脱敏规程和执行数据脱敏工作流程两部分。 4.1 数据脱敏规程组织机构应制定完备的数据脱敏规范和流程，并对可能接触到脱敏数据的相关方进行数据脱敏规程的推广培训，并定期评估和维护数据脱敏规程内容，以保证数据脱敏工作执行的规范性和有效性。在制定数据脱敏规程时，应关注以下事项： a) 应该明确指定敏感数据管理部门，并明确其安全责任和义务； b) 应该根据安全合规需求，建立敏感数据的分类分级制度、数据脱敏的工作流程、脱敏工具的运维管理制度，并定期对相关流程制度

DB52-T 1126-2016 政府数据 数据脱敏工作指南

DB52-T 1126-2016 政府数据数据脱敏工作指南