ICS35.240.70
L70
中华人民共和国国家标准
GB/T38667—2020
信息技术 大数据 数据分类指南
Informationtechnology—Bigdata—Guidefordataclassification
2020-04-28发布 2020-11-01实施
国家市场监督管理总局
国家标准化管理委员会发布目 次
前言 Ⅰ …………………………………………………………………………………………………………
1 范围 1 ………………………………………………………………………………………………………
2 规范性引用文件 1 …………………………………………………………………………………………
3 术语和定义 1 ………………………………………………………………………………………………
4 缩略语 2 ……………………………………………………………………………………………………
5 分类过程 2 …………………………………………………………………………………………………
5.1 概述 2 …………………………………………………………………………………………………
5.2 分类规划 3 ……………………………………………………………………………………………
5.3 分类准备 3 ……………………………………………………………………………………………
5.4 分类实施 4 ……………………………………………………………………………………………
5.5 结果评估 5 ……………………………………………………………………………………………
5.6 维护改进 5 ……………………………………………………………………………………………
6 分类视角 6 …………………………………………………………………………………………………
6.1 概述 6 …………………………………………………………………………………………………
6.2 技术选型视角 6 ………………………………………………………………………………………
6.3 业务应用视角 6 ………………………………………………………………………………………
6.4 安全隐私保护视角 6 …………………………………………………………………………………
7 分类维度 6 …………………………………………………………………………………………………
7.1 概述 6 …………………………………………………………………………………………………
7.2 技术选型维度 7 ………………………………………………………………………………………
7.3 业务应用维度 9 ………………………………………………………………………………………
7.4 安全隐私保护维度 12 …………………………………………………………………………………
8 分类方法 12 …………………………………………………………………………………………………
8.1 线分类法 12 ……………………………………………………………………………………………
8.2 面分类法 13 ……………………………………………………………………………………………
8.3 混合分类法 13 …………………………………………………………………………………………
附录A(资料性附录) 大数据分类示例 14 …………………………………………………………………GB/T38667—2020前 言
本标准按照GB/T1.1—2009给出的规则起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本标准起草单位:中国科学院信息工程研究所(信息安全国家重点实验室)、国家信息中心、浪潮软
件集团有限公司、智慧神州(北京)科技有限公司、方正国际软件(北京)有限公司、国网安徽省电力有限
公司(电力科学研究院)、中国铁道科学研究院集团有限公司、中国电子技术标准化研究院、上海三零卫
士信息安全有限公司、联通大数据有限公司、中国保险信息技术管理有限责任公司、九次方大数据信息
集团有限公司、中电长城网际系统应用有限公司、广东电网有限责任公司信息中心、中电科大数据研究
院有限公司、北京大学、山东省计算中心(国家超级计算济南中心)。
本标准主要起草人:陈驰、马红霞、马书南、田雪、高亚楠、黄先芝、单震、张慧敏、张煜、顾广宇、吴艳华、
郑金子、尹卓、叶林、干露、关泰璐、李燕超、郎佩佩、闵京华、魏理豪、禄凯、张吉才、冯念慈、赵俊峰、史丛丛、
孙嘉阳。
ⅠGB/T38667—2020信息技术 大数据 数据分类指南
1 范围
本标准提供了大数据分类过程及其分类视角、分类维度和分类方法等方面的建议和指导。
本标准适用于指导大数据分类。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T4754—2017 国民经济行业分类
GB/T35295—2017 信息技术 大数据 术语
3 术语和定义
GB/T35295—2017界定的以及下列术语和定义适用于本文件。为了便于使用,以下重复列出了
GB/T35295—2017中的某些术语和定义。
3.1
大数据 bigdata
具有体量巨大、来源多样、生成极快、且多变等特征,并且难以用传统数据体系结构有效处理的包含
大量数据集的数据。
注:国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variability予以表述,并分别赋予
了它们在大数据语境下的定义:
a) 体量 volume:构成大数据的数据集的规模。
b) 多样性 variety:数据可能来自多个数据仓库、数据领域或多种数据类型。
c) 速度 velocity:单位时间的数据流量。
d) 多变性 variability:大数据其他特征,即体量、速度和多样性等特征都处于多变状态。
[GB/T35295—2017,定义2.1.1]
3.2
数据集 dataset
数据记录汇聚的数据形式。
注:它可以具有大数据的体量、速度、多样性和易变性特征。数据集的特征表征的是数据本身或静态数据,而数据
的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。
[GB/T35295—2017,定义2.1.46]
3.3
大数据分类 bigdataclassification
根据大数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的分类体系和
排列顺序的过程。
1GB/T38667—20203.4
分类主体 classificationsubject
大数据收集、存储、使用、分发、删除等过程中对大数据进行梳理归类的组织或个人。
3.5
分类视角 classificationangle
分类主体观察和开展大数据分类活动的角度。
3.6
分类维度 classificationdimension
用于实现分类的数据所具有的某个或某些共同特征。
注:常见数据分类维度包括产生来源、结构化特征、业务归属、处理时效性要求等。
3.7
分类方法 classificationmethod
根据选定的分类维度,将数据类别以某种形式进行排列组织的逻辑方法。
3.8
数据分发 datadistribute
将原始数据、处理数据、分析结果等形式的数据传递给内部或外部实体的过程。
注:数据分发包括线上或线下等多种方式,如数据交换、数据交易、数据共享、数据公开等。
3.9
类别 category
具有共同属性(或特征)的数据的集合。
4 缩略语
下列缩略语适用本文件。
ETL:提取、转换和加载(Extract-Transform-Load)
FTP:文件传输协议(FileTransferProtocol)
SQL:结构化查询语言(StructuredQueryLanguage)
5 分类过程
5.1 概述
大数据分类过程划分为分类规划、分类准备、分类实施、结果评估、维护改进5个阶段,如图1所示。
2GB/T38667—2020图1 大数据分类过程
本章规范了大数据的分类过程,并根据大数据实际应用场景,在第6章、第7章、第8章分别对分类
视角、分类维度、分类方法3个关键步骤进行规范,具体分类示例参见附录A。
5.2 分类规划
5.2.1 选择分类视角
选择分类视角过程包括:
a) 明确分类业务场景;
b) 根据业务场景选取分类视角。
注:分类视角见第6章。
5.2.2 制定工作计划
制定工作计划过程包括:
a) 明确规划拟开展分类的数据范围;
b) 明确拟采用的分类维度和方法;
c) 明确预期分类结果;
d) 明确分类工作实施方案及进度安排;
e) 明确对分类结果的评估方法;
f) 明确对分类结果体系的维护方案。
5.3 分类准备
5.3.1 调研数据现状
调研数据现状过程包括:
a) 调研数据产生情况,包括但不限于数据产生的场景、主体、方式、频率、稀疏稠密、合法合规
性等;
b) 调研数据存储现状,包括但不限于数据内容的格式、存储方式、存储位置、存储量等;
c) 调研数据质量情况,包括但不限于数据的规范性、完整性、准确性、一致性、时效性、可访问
性等;
d) 调研数据业务类型,如组织人事管理数据、经营数据、财务数据等;
3GB/T38667—2020e) 调研数据敏感程度
GB-T 38667-2020 信息技术 大数据 数据分类指南
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2023-01-15 17:30:05上传分享