全网唯一标准王
ICS 35.020 CCS L70 YD 中华人民共和国通信行业标准 YD/T XXXX-XXXX 大规模预训练模型技术和应用评估方法 第2部分:模型能力 Large-scale pre-trained model technology and application evaluation methodPart 2: Model capability XXXX-XX-Xx 发布 XXXX-XX-XX实施 中华人民共和国工业和信息化部发布 前言 本文件按照国标GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起 草规则》给出的规则起草。 本文件是YD/TXXX《大规模预训练模型技术和应用评估方法》系列标准的第1部分 YD/TXXX已经发布了以下部分: 一一第3部分:模型应用; 一一第4部分:可信要求。 一一第5部分:模型运营。 本文件是《大规模预训练模型技术和应用评估方法》系列标准的第2部分。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任 本文件由中国通信标准化协会提出并归口。 本文件起草单位:中国信息通信研究院、南京新一代人工智能研究院有限公司、华为技 术有限公司、北京百度网讯科技有限公司、上海商汤智能科技有限公司、腾讯云计算(北京) 有限责任公司、浪潮通信信息系统有限公司、OPPO广东移动通信有限公司、思必驰科技股 份有限公司、蚂蚁科技集团股份有限公司、中国联合网络通信集团有限公司、之江实验室、 杭州海康威视数字技术股份有限公司、北京声智科技有限公司、马上消费金融股份有限公司、 中国移动通信集团有限公司、中国电信集团有限公司、上海浦东发展银行股份有限公司、美 的集团(上海)有限公司、乐万家财富(北京)科技有限公司、重庆任丙科技有限公司。 本文件主要起草人:董晓飞、张学强、张丹、曹峰、魏凯、陶玥、陶秋雨、王倩娜、王 怡茹、孟悦、吴思奇、王倩、周婧、于达、齐格格、张军、蒋晓琳、徐永江、谢凌曦、庄子 杰、曹晓琦、王渭巍、苏腾、陈梦云、包振忠、徐浩、吴庚、李强、杨阳、许一骅、刘海涛、 李珂、吴晨、刘科研、许成永、杨振宇、苏钿煌、付艳艳、李茂龙、俞凯、张小敏、薛少飞、 曾昭凤、钱彦、缪庆亮、樊帅、林冠辰、付大鹏、郭智慧、吴浩然、李笑如、魏家馨、黄 丹丹、谭文明、任文奇、李良斌、包涵、刘志强、韩卫强、田康、王静、刘紫君、钱兵、孙 佩霞、黄健、李铭梁、祭业森、高峰、林斯越、陆铁文、邱颜清、李昊昱、张志勇、方华。 II 引 言 随着《“十四五”数字经济发展规划》《“十四五”国家信息化规划》等政策的发布,关 键技术创新能力、数字技术基础研发能力和创新技术的工程化和产业化成为当下的关注焦点。 作为人工智能新基建的技术底座,大规模预训练模型强力助推自然语言处理、智能语音、计 算机视觉等人工智能技术取得突破,缓解了人工智能开发过程中“碎片化”问题,加快人工 智能落地进程,进而带动国内人工智能基础设施的发展,助力人工智能向实用化、通用化和 普惠化发展。 近两年来,大规模预训练模型能力持续升级,其在对话、生成等方面的能力突出,并涌 现出现象级产品应用;相关工具平台逐渐成熟,工程化路径愈发清晰,在金融、电信、交通、 能源等各个行业均有探索。但随着其应用范围的不断扩大,驱需建立应用能力评价体系。为 了引导产业有序发展、规范行业自律,并为用户提供选型参考。 该系列标准的结构、名称和目的如下: 一 第1部分:模型开发。目的在于面向大模型开发过程,从数据管理、模型训练、模 型管理、模型部署、开发流程一体化五大维度,综合评估大模型开发能力。 一一第2部分:模型能力。目的在于面向大模型的技术和系统能力,从能力支持度和服 务成熟度两方面对大模型能力进行规范。 一一第3部分:模型应用。目的在于面向大模型应用落地阶段,从应用丰富度、应用灵 活度、应用成熟度三个方面对大模型应用过程进行规范。 一第4部分:可信要求。目的在于面向大模型可信可控方面,从可信、安全、自主等 方面对大模型全生命全周期的安全可信进行规范。 一一第5部分:模型运营。目的在于面向大模型的微调优化及部署交付上线,围绕数据 工程、模型调优、模型交付、服务运营、平台能力等维度对大模型的能力进行规范。 本文件是“大规模预训练模型技术和应用评估方法”系列标准第2部分:模型能力,为 大规模预训练模型技术研发者和选型者提供评估参考规范, III 大规模预训练模型技术和应用评估方法 第2部分:模型能力 1范围 本文件规定了大规模预训练模型的模型能力各项要求,主要包含能力支持度和服务成熟 度等核心内容。 本文件适用于指导大模型技术方开展产品研发,可为大模型应用方产品选型、系统建设、 应用管理等方面提供参考。 2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期 的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括 所有的修改单)适用于本文件。 GB/T21023中文语音识别系统通用技术规范 3术语和定义 GB/T21023界定的以及下列术语和定义适用于本文件。 3. 1 大规模预训练模型large-scalepre-trained model 种参数规模较大的预训练模型,通过自监督或者无监督技术从海量的数据中训练得到 基础模型,并结合下游具体任务对其进行微调,最终被训练成具有逻辑推理和分析能力的人 工智能模型。 3. 2 语音识别 speechrecognition 将人类的声音信号转化为文字或者指令的技术。 [来源:GB/T21023,3.1] 3. 3 语音合成textto speech 通过机械的、电子的方法合成人类语言的过程。 3. 4 机器翻译 machine translation 将一种语言(源语言)自动转换为另一种语言(目标语言)的技术。 3. 5 图文检索text-image retrieval 一种跨模态检索技术,主要包括基于文本检索图片和基于图片检索文本两项任务。 3. 6 1 基于图片的文本问答visual question answering 将图片和图片相关的自然语言问题作为输入,生成对应自然语言答案作为输出的系统。 3.7 基于图片的文本描述image2caption 根据给定的图像,生成自然语言来描述图像视觉内容的任务。 4 缩略语 下列缩略语适用于本文件: API 应用程序编程接口 Application Programming Interface BLEU 双语评估替补 Bilingual Evaluation Understudy FID Frechet初始距离 Fréchet Inception Distance HR 命中率 Hits Ratio IoU 交并比 Intersection of Unit MOS 平均主观得分 MeanOpinionScore MRR 平均倒数排名 Mean Reciprocal Rank OCR 光学字符识别 Optical Character Recognition SCR 句准确率 SentenceCorrectRate TPS 每秒处理的消息数 Transaction Per Second 5基本框架 智能语义 智能视觉 智能语音 跨模态 机器翻译 OCR 语音唤醒 图文检索 领域任务 对话系统 人脸识别 语音识别 图文生成 情感分析 图像分类 语音合成 图模态检索 文本生成 动作识别 声纹识别 视频文本相 文本分类 关性匹配 图像生成 文本纠错 目标检测 阅读理解 实例分割 功能 性能 评估维度 励能丰富度 客观指标 皮持完备度 [主观指标 个 服务成熟度 稳定性 鲁棒性 响应时间 开放程度 并发性 图1模型能力框架 本文件围绕大模型各项领域能力,从功能和性能两个维度展开,全面关注大模型的技术 服务能力。 a)技术能力方面,通过智能语义、智能视觉、智能语音及跨模态四个领域多个子任 务的能力评估,综合反映大模型的技术性能 2 服务能力方面,主要包括稳定性、鲁棒性、响应时间、开放程度、并发性等指标, b) 关注大模型在对外展示能力时的成熟度。 6 评估方法概述 针对模型能力部分的评估方法包括验证和测试两类测评方法,具体为: a) 验证:验证是通过评审、核查、审查、观察、研究和分析等手段,检查确定相关指 标是否满足要求; b) 测试:使用预定的方法工具产生特定的结果,将运行结果与预期结果进行比对的 过程,主要包括数据集构造、人工评测、工具测试等测试操作。 7指标项概述 7. 1 信息披露 模型能力信息披露的具体分项详见表1。 表1模型能力信息披露 信息披露分项 披露内容 模型参数 模型的参数量。 训练数据 模型的训练数据量。 训练时长 模型开发的时间耗用情况,包括但不限于训练耗时、微调耗时。 响应时间 模型执行单次任务的时间。 7. 2 模型能力指标体系 本文件从能力支持度、服务成熟度两方面对大模型能力进行评估: 能力支持度:包括智能语义、智能视觉、智能语音、跨模态; 服务成熟度:包括服务稳定性、服务鲁棒性、开放程度、服务并发性。 模型能力的具体能力项详见表2。 表2模型能力指标体系 维度 能力域 能力项 对话系统 机器翻译 情感分析 文本分类 文本生成 智能语义 代码生成 知识图谱 文本内容推荐 阅读理解 能力支持度 摘要生成 文本纠错 OCR 人脸识别 图像分类 动作识别 智能视觉 图片生成 图片内容推荐 目标检测 语义分割 3 实例分割 视觉检索 语音唤醒 语音识别 智能语音 语音合成 声纹识别 图文检索 图文生成 跨模态 多模态商品检索 视

.pdf文档 YD-T 6520.2-2025大规模预训练模型技术和应用评估方法 第2部分:模型能力 报批稿

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
YD-T 6520.2-2025大规模预训练模型技术和应用评估方法 第2部分:模型能力 报批稿 第 1 页 YD-T 6520.2-2025大规模预训练模型技术和应用评估方法 第2部分:模型能力 报批稿 第 2 页 YD-T 6520.2-2025大规模预训练模型技术和应用评估方法 第2部分:模型能力 报批稿 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-09-22 20:18:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。