全网唯一标准王
ICS 35.020 CCS L70 YD 中华人民共和国通信行业标准 YD/T XXXX-XXXX 大规模预训练模型技术和应用评估方法 第1 部分:模型开发 Large-scale pre-trained model technology and application evaluation method Part 1: Model development (报批稿) XXXX-XX-XX发布 XXXX-XX-XX实施 中华人民共和国工业和信息化部发布 前言 本文件按照国标GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起 草规则》给出的规则起草。 本文件是YD/TXXXX《大规模预训练模型技术和应用评估方法》系列标准的第1部分, YD/TXXXX已经发布了以下部分: 一第3部分:模型应用 一一第4部分:可信要求。 一一第5部分:模型运营。 本文件是《大规模预训练模型技术和应用评估方法》系列标准的第1部分。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任 本文件由中国通信标准化协会提出并归口。 本文件主要起草单位:中国信息通信研究院、南京新一代人工智能研究院有限公司、华 为技术有限公司、北京百度网讯科技有限公司、上海商汤智能科技有限公司、腾讯云计算(北 京)有限责任公司、浪潮通信信息系统有限公司、OPPO广东移动通信有限公司、思必驰科 技股份有限公司、蚂蚁科技集团股份有限公司、中国联合网络通信集团有限公司、中国移动 通信集团有限公司、之江实验室、杭州海康威视数字技术股份有限公司、厦门渊亭信息科技 有限公司、亚信科技(中国)有限公司、北京声智科技有限公司、马上消费金融股份有限公 司、上海浦东发展银行股份有限公司、美的集团(上海)有限公司、乐万家财富(北京)科 技有限公司。 本文件主要起草人:董晓飞、张丹、张学强、曹峰、魏凯、陶玥、陶秋雨、王倩娜、王 怡茹、孟悦、吴思奇、王倩、周婧、于达、齐格格、李强、杨阳、徐永江、谢凌曦、庄子杰、 曹晓琦、王渭巍、苏腾、陈梦云、包振忠、高铁柱、胡晓光、蒋晓琳、李笑如、徐浩、吴庚、 刘海涛、李珂、吴晨、刘科研、许成永、杨振宇、苏钿煌、付艳艳、李茂龙、俞凯、张小敏、 薛少飞、曾昭凤、钱彦曼、缪庆亮、樊师、林冠辰、付大鹏、郭智慧、吴浩然、魏家馨、闫 伟、田康、王静、刘紫君、黄丹丹、谭文明、任文奇、陈光浣、林秋丹、廉霄兴、陈丹、白 世明、张含波、刘志强、韩卫强、黄健、李铭梁、陆铁文、蔡亚森、高峰、林斯越、邱颜清、 罗文生。 II 引 言 随着《“十四五”数字经济发展规划》《“十四五”国家信息化规划》等政策的发布,关 键技术创新能力、数字技术基础研发能力和创新技术的工程化和产业化成为当下的关注焦点。 作为人工智能新基建的技术底座,大规模预训练模型强力助推自然语言处理、智能语音、计 算机视觉等人工智能技术取得突破,缓解了人工智能开发过程中“碎片化”问题,加快人工 智能落地进程,进而带动国内人工智能基础设施的发展,助力人工智能向实用化、通用化和 普惠化发展。 近两年来,大规模预训练模型能力持续升级,其在对话、生成等方面的能力突出,并涌 现出现象级产品应用;相关工具平台逐渐成熟,工程化路径愈发清晰,在金融、电信、交通、 能源等各个行业均有探索。但随着其应用范围的不断扩大,驱需建立应用能力评价体系。为 了引导产业有序发展、规范行业自律,并为用户提供选型参考。 该系列标准的结构、名称和目的如下: 一 第1部分:模型开发。目的在于面向大模型开发过程,从数据管理、模型训练、模 型管理、模型部署、开发流程一体化五大维度,综合评估大模型开发能力。 一一第2部分:模型能力。目的在于面向大模型的技术和系统能力,从能力支持度和服 务成熟度两方面对大模型能力进行规范。 一一第3部分:模型应用。目的在于面向大模型应用落地阶段,从应用丰富度、应用灵 活度、应用成熟度三个方面对大模型应用过程进行规范。 一第4部分:可信要求。目的在于面向大模型可信可控方面,从可信、安全、自主等 方面对大模型全生命全周期的安全可信进行规范。 一一第5部分:模型运营。目的在于面向大模型的微调优化及部署交付上线,围绕数据 工程、模型调优、模型交付、服务运营、平台能力等维度对大模型的能力进行规范。 本文件是“大规模预训练模型技术和应用评估方法”系列标准第1部分:模型开发,为 大规模预训练模型技术研发者和选型者提供评估参考规范, III 大规模预训练模型技术和应用评估方法 第1部分:模型开发 1范围 本文件规定了大规模预训练模型时具备的能力要求,包括数据管理、模型训练、模 型管理和模型部署等核心环节。 本文件适用于指导大模型技术方开展产品研发,可为大模型应用方产品选型、系统 建设、应用管理等方面提供参考。 2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期 的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括 所有的修改单)适用于本文件。 GB/T5271.31-2006信息技术词汇第31部分:人工智能机器学习 GB/T41867-2022信息技术人工智能术语 3术语和定义 下列术语和定义适用于本文件。 3. 1 大规模预训练模型large-scalepre-trainedmodel 种参数规模较大的预训练模型,通过自监督或者无监督技术从海量的数据中训练得到 基础模型,并结合下游具体任务对其进行微调,最终被训练成具有逻辑推理和分析能力的人 工智能模型。 3. 2 模型蒸馏modeldistillation 把体量大的模型的知识压缩从而减少模型规模的一种方法。 3. 3 增量学习 incremental learning 一个阶段学习的知识被转换后以适应后续阶段提供的新知识的多阶段的自适应学习。 [来源:GB/T5271.31-2006,31.03.07] 3. 4 微调fine-tuning 为提升人工智能模型的预测精确度,一种先以大型广泛领域数据集训练,再以小型专门 领域数据集继续训练的附加训练技术。 注:常用于解决过拟合问题。 L来源:GB/T41867-2022,3.2.31] 1 3.5 元数据metadata 又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持 如指示存储位置、历史数据、资源查找、文件记录等功能。 4缩略语 下列缩略语适用于本文件: BWT 向后转移 BackwardTransfer CPU 中央处理器 Central Processing Unit CV 计算机视觉 Computer Vision FWT 向前转移 Forward Transfer GPU 图形处理器 Graphics Processing Unit IP 网际互连协议 Internet Protocol NLP 自然语言处理 Natural Language Processing 5基本框架 模型训练 模型管理 模型部署 训练方式 模型存储 模型微调 编译优化 版本管理 模型转换 资源调度 日志管理 模型轻量化 可视化工具 数据构建 算力支撑 数据获取 数据处理 数据管理 CPU GPU 服务器集群 图1模型开发框架 本文件面向大模型的开发流程,包含数据管理、模型训练、模型管理到模型部署等重要 环节,其框架图如图1所示,四个核心环节在总体架构中的功能具体如下: a) 数据管理主要是在获取多元的数据后,通过数据清洗、标注、质检等操作梳理开发 数据,并对其进行版本化管理,包含数据获取、数据处理和版本管理等方面; b) 模型训练主要是在获得基础模型后,采用增量学习等方式进一步提高模型性能,包 含训练方式、过程可视化、资源调度等方面; 模型管理主要是在模型存储、版本管理、日志管理等方面提供支持; d) 模型部署环节针对大模型参数庞大的特性,围绕微调、转换和轻量化展开,助力大 模型落地实施。 6评估方法概述 针对模型开发部分的评估方法包括验证和测试两类测评方法,具体为: a 验证:验证是通过评审、核查、审查、观察、研究和分析等手段,检查确定相关指 标是否满足要求; b)测试:使用预定的方法/工具产生特定的结果,将运行结果与预期结果进行比对的 2 过程,主要包括数据集构造、人工评测、工具测试等测试操作。 7指标项及评估方法 7.1信息披露 模型开发信息披露的具体分项详见表1。 表1模型开发信息披露 信息披露分项 披露内容 模型参数 模型的参数量。 数据规模:模型在训练阶段的数据集大小。 数据来源:模型开发过程中的数据来源,包括但不限于:自主构建数据集、 新闻网站、图片网站、购物网站、知识图谱等。 数据模态:模型在开发阶段使用的训练数据、微调数据等的模态丰富度, 包括但不限于:文本、图片、视频、语音等, 数据信息 行业:模型在开发阶段使用的训练数据、微调数据等的行业丰富度,包括 但不限于:金融、教育、交通、文娱、科技、医疗、体育、军事、政务、 旅游 语种:模型在开发阶段使用的训练数据、微调数据等的语种丰富度,包括 但不限于:汉语、英语、法语、俄语、阿拉伯语、日语、韩语、德语、西 班牙语、意大利语。 训练框架 训练使用的深度学习框架。 训练时长 模型开发的时间耗用情况,包括但不限于训练耗时、微调耗时。 7.2评估指标体系 本文件从数据管理、模型训练、模型管理、模型部署和开发成熟度五个方面对大模型开 发能力进行评估: 数据管理:包括数据处理、数据版本管理; 模型训练:包括训练方式、可视化、训练平台、增量学习、资源优化调度、分布式 训练; 模型管理:包括模型存储

.pdf文档 YD-T 6520.1-2025大规模预训练模型技术和应用评估方法 第1部分:模型开发 报批稿

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
YD-T 6520.1-2025大规模预训练模型技术和应用评估方法 第1部分:模型开发 报批稿 第 1 页 YD-T 6520.1-2025大规模预训练模型技术和应用评估方法 第1部分:模型开发 报批稿 第 2 页 YD-T 6520.1-2025大规模预训练模型技术和应用评估方法 第1部分:模型开发 报批稿 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-09-22 20:16:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。