ICS 35.240
L70
团 体 标 准
T/CESA 1040—2019
信息技术 人工智能 面向机器学习的数据
标注规程
Information technology - Artificial intel ligence - Code of practice for data annotation
of machine learning
2019 - 04 - 01发布 2019 - 04 - 01实施
中国电子工业标准化技术协会 发布 T/CESA 1040 —2019
I
目 次
前 言 ................................ ................................ .............. II
1 范围 ................................ ................................ ................ 1
2 规范性引用文件 ................................ ................................ ......1
3 术语和定义 ................................ ................................ .......... 1
4 数据标注规程框架 ................................ ................................ ....2
5 数据标注规程 ................................ ................................ ........ 3
5.1 定义所需标注数据和预估数据量 ................................ .................... 3
5.2 标注说明规则 ................................ ................................ ....4
5.3 标注人力供给方式 ................................ ................................ 5
5.4 标注工具 和标注平台选择 ................................ .......................... 5
5.5 标注任务创建、分发、开展和回收 ................................ .................. 5
5.6 标注结果质量检查和控制 ................................ .......................... 7
5.7 标注结果输出交付 要求 ................................ ............................ 8
5.8 数据交付和验收 ................................ ................................ ..9
T/CESA 1040 —2019
II 前 言
本部分按照 GB/T 1.1—2009《标准化工作导则 第1部分:标准的结构和编写》给出的规则起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任 。
本标准由中国电子技术标准化研究院提出并归口。
本标准起草单位:北京航空航天大学、中国电子技术标准化研究院、第四范式(北京)技术有限公
司、深圳腾讯计算机系统有限公司、中国航空综合技术研究所、数据堂(北京)科技股份有限公司、中
国医学科学院生物医学工程研究所、联想(北京)有限公司、北京深醒科技有限公司、上海外国语大学、
深圳云天 励飞技术有限公司、北京深睿博联科技有限责任公司、普天信息技术有限公司、海尔优家智能
科技(北京)有限公司、浪潮软件集团有限公司、威麟信息技术开发(上海)有限公司、玉养信息科技
(上海)有限公司、重庆中科云从科技有限公司、 北京京东尚科信息技术有限公司、 中国电子科技集团
公司第十四研究所、南京中兴新软件有限责任公司、北京海天瑞声科技股份有限公司、杭州海康威视数
字技术股份有限公司、中科博宏(北京)科技有限公司、苏州思必驰信息科技有限公司、上海交通大学
苏州人工智能研究院、中国电子科技集团公司第五十四研究所、浙江成功软件开 发有限公司、上海智能
制造系统创新中心有限公司、天津天大康博科技有限公司、广州广电运通金融电子股份有限公司、浙江
大华技术股份有限公司、广州广电银通金融电子科技有限公司、中国电信集团有限公司、上海孚恩电子
科技有限公司。
本标准主要起草人:吴文峻、陈天伦、杨晓光、童咏昕、陈雨强、马亚光、王洁萍、代红、董建、
张群、王燕妮、马珊珊、汪小娟、丰强泽、郑继龙、袁鲲、齐红威、徐圣普、蒲江波、杨贻冰、王威、
田永会、王挺、王孝宇、程冰、胡文泽、邹博、赵豪杰、李硕、霍欣、张鹏、胡江明、王功明、王建华、
翁家良、朱兆颖、李军、 张振庭、孙晶明、杨祎、林震亚、杜新凯、郝玉峰、李科、赖晓晨、任文奇、
翁斌、俞凯、张小敏、张小龙、陈奇、张子健、江洁羽、王飞、谭李诺、郑晨光、林冠辰、陈良旭、程
淼、梁添才、赵清利、徐天适、杨震、龚晟、陈璐、徐坚强。
T/CESA 1040 —2019
1 信息技术 人工智能 面向机器学习的数据标注规程
1 范围
本标准确立了数据标注规程框架,规定了数据标注的具体规程。
本标准适用于面向人工智能研究或开发应用等需要实施数据标注的企业、高校、科研院所、政府机
构等。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。 凡是注日期的引用文件, 仅注日期的版本 适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
ISO 12052 Health informatics ——Digital imaging and communication in medicine
(DICOM) including workflow and data management
3 术语和定义
下列术语和定义适用于本文件。
3.1
数据标注 data annotation
对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待
标注数据增 加标签,生成满足机器学习训练要求的机器可读数据编码。
3.2
标签 label
标识数据的特征、类别和属性等,用于建立数据及机器学习训练要求所定义的机器可读数据编码间
的联系。
3.3
标注任务 annotation task
按照数据标注规范对指定数据集进行标注的过程。
3.4
数据标注员 data labeler
对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作的工作
人员。 T/CESA 1040 —2019
2 3.5
标注工具 annotation tool
数据标注员完成标注任务产生标注结果时所需的工 具和软件。
注1:标注工具可生成标签并提供参考模板。
注2:不同的数据类型和标注任务需要不同的标注工具。标注工具按自动化程度可分为手动、半自动、自动三种。
3.6
标注平台 annotation platform
开展标注任务的系统化工作台。
注:标注平台在包含标注工具全部功能的基础上将所有标注环节工具化,可有效地对标注任务进行全局管理和跟
踪。
3.7
标注说明规则 annotation instruction
数据需求方用于明确标注任务和标注数据的书面陈述,包含执行标注任务所需的标注工具、任务描
述、标注方法、正确 示例、常见错误等内容。
3.8
标注方法 annotation method
定义数据标注员进行数据标注时的环境和规程,包含标注对象定义、所用标注工具和标注平台、标
注格式、标注前的准备工作、标注后的处理工作等。
3.9
众包标注 crowdsourcing annotation
数据需求方公开发布标注任务, 数据标注员申领标注任务并在规定时间内完成标注任务发回数据数
据需求方,数据需求方收集整理后获得用于机器学习训练的标注数据集的数据标注过程。
3.10
半自动标注 semi-automatic annotation
使用人工结合自动化工具的方式进行数据标注。
4 数据标注规程框架
数据标注规程框架见图 1,包括:
a) 标注任务前期准备:
1) 定义所需数据;
2) 制定标注说明规则;
3) 确定标注人力的供给方式;
b) 标注任务中: T/CE
T-CESA 1040—2019 信息技术 人工智能 面向机器学习的数据标注规程
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2022-12-20 17:33:00上传分享