全网唯一标准王
ICS 35.240 YD CCS L 67 中华人民共和国通信行业标准 YD/T×××× 一×××× 大规模预训练模型技术和应用评估方法 第5部分:模型运营 Large scale pre-training model technology and application evaluation method -Part 5: Model operation (报批稿) ××××-××-××发布 ××××-××-××实施 中华人民共和国工业和信息化部发布 言 前 本文件按照GB/T1.1一2020《标准化工作导则 」第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件是YD/TXXX《大规模预训练模型技术和应用评估方法》系列标准的第5部分,YD/TXXX 已经发布了以下部分: 一一第3部分:模型应用; 一第4部分:可信要求。 本文件是《大规模预训练模型技术和应用评估方法》系列标准的第5部分。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由中国通信标准化协会提出并归口。 本文件起草单位:中国信息通信研究院、北京百度网讯科技有限公司、上海浦东发展银行股份有限 公司、华为终端有限公司、中国联合网络通信有限公司软件研究院、中国移动通信集团有限公司、北京 启明星辰信息安全技术有限公司、北京奇虎科技有限公司、绿盟科技集团股份有限公司、华为云计算技 术有限公司、马上消费金融股份有限公司、科大讯飞股份有限公司、腾讯云计算(北京)有限责任公司、 OPPO广东移动通信有限公司、思必驰科技股份有限公司、北京世纪好未来教育科技有限公司、浪潮通 信信息系统有限公司、上海隧原科技股份有限公司、浪潮云信息技术股份公司。 本文件主要起草人:秦思思、胡慧、齐静、曹峰、靳伟、谢永康、胡建村、吴坤、李铭梁、郭宁宁、 蔡明星、孙亚晶、区可明、余泽鹏、童庆、丁光宇、张永启、向元武、徐峻峰、钱岳、黄长春、王一光 郭佳敏、马瑞、吕璐、林博鸿、温舒涵、刘枢、陈鹏光、蒋发群、刘焕勇、李东明、王星凯、杨鑫宜、 罗华刚、郑子木、李国冬、刘颖、吕慧、谭可华、黄绿君、刘强、肖美虹、周正斌、花福军、黄超、宗 子淋、唐剑飞、伊人、杨一帆、谢贵明、陆峰、朱钦佩、贾云飞、刘志铭、宗畅、路明奎、赵阳、刘子 韬、鲁为民、沈阅斌、王凯、张亚林、郑佳佳。 II 引言 大规模预训练模型是人工智能新基建的技术底座,缓解人工智能开发及应用过程中的“碎片化”问题 助推自然语言处理、智能语音、计算机视觉等人工智能技术取得突破,加速人工智能落地进程,进而带 动国内人工智能基础设施的发展,助力人工智能向实用化、通用化和普惠化发展。 YD/TXXX《大规模预训练模型技术和应用评估方法》规定了大规模预训练模型研发及应用全生命 周期能力要求及评估方法,适用于构建并完善大规模与训练模型开发、应用、运营、可信能力,规范大 规模与训练模型评估方法 大规模预训练模型技术和应用评估方法系列标准拟由以下部分组成。 一一第1部分:模型开发。目的在于从数据管理、模型训练、模型管理、模型部署、开发流程一体 化五大维度,综合评估大模型开发能力。 一一第2部分:模型能力。目的在于从能力支持度和服务成熟度两方面对大模型能力进行规范。 一一第3部分:模型应用。目的在于从应用丰富度、应用灵活度、应用成熟度三个方面对应用过程 进行规范。 一一第4部分:可信要求。目的在于从基础软硬件可信、数据可信、模型可信、应用可信等方面综 合评估大模型满足可信要求的能力。 一第5部分:模型运营。目的在于从大模型工具平台、运营管理能力对大模型运营能力进行评估。 III YD/T XXXX-XXXX 大规模预训练模型技术和应用评估方法 第5部分:模型运营 1范围 本文件规定了大模型在工程化落地和运营阶段,对于平台工具的能力要求,主要包括数 据工程、模型调优、模型交付、服务运营、平台能力。 本文件适用于指导产品方完善大模型平台产品能力,并为应用方提供技术选型参考。 2规范性引用文件 本文件没有规范性引用文件。 3术语和定义 下列术语和定义适用于本文件。 3.1 预训练模型pre-trainedmode 种深度学习模型,通过自监督或者无监督技术,在大量的训练数据上训练得到初始模 型,可被迁移到目标相近的任务中使用。 3.2 大规模预训练模型 large-scale pre-trained model 简称大模型,一种参数规模较大的预训练模型,通过自监督或者无监督技术从海量的数 据中训练得到基础模型,并结合下游具体任务对其进行微调,最终被训练成具有逻辑推理和 分析能力的人工智能模型。 3.3 大规模语言模型largelanguage model 一种参数规模较大的语言模型,旨在理解和生成人类语言。通过大量的文本数据进行训 练,可执行包括文本总结、翻译、情感分析等在内的广泛任务。 3.4 无监督学习 unsupervised learning 一种没有给定事先标记过的训练范例的方法,自动对输入的资料进行分类或发现隐藏的 模式,这种方法能够发现信息的相似性和差异性。 3.5 1 YD/T XXXX-XXXX 自监督学习 self-supervised learning 种主要利用辅助任务从大规模的无监督数据中挖掘自身的监督信息的方法,通过这种 构造的监督信息对网络进行训练,可以学习到对下游任务有价值的表征。 4缩略语 下列缩略语适用于本文件: AI 人工智能 Artificial Intelligence API 应用程序编程接口 Application Programming Interface CPU 中央处理器 Central Processing Unit F1-score 平衡F分数 balanced F Score GAN 生成对抗网络 Generative Adversarial Network GPU 图形处理器 Graphics Processing Unit LoRA 低秩自适应 Low-Rank Adaptation LLaMA Meta大型语言模型 Large Language Model Meta AI VAE 变分自编码器 Variational Auto-Encoder 5基本框架 数据 大模型运营 ? 通识数据 行业数据 数据工程 模型调优 模型交付 服务运营 行业大模型 ? 任务/场景数据 数据采集 提示工程 模型压缩/转化 服务编排 任务大模型 数据标注 服务托管 模型重训 模型测试 场景大模型 基础大模型 数据处理 服务监控 模型微调 模型部署 数据生成 服务告警 服务 私有连接 数据回流 强化学习 模型管理 结果和反馈 【向量数据库 平台能力 应用 插件能力 资源调度与管理 安全管理 配置管理 其他支撑能力 图1大模型运营流程框架图 大规模预训练模型运营主要包括数据工程、模型调优、模型交付、服务运营和平台能力 等五大环节。 a) 数据工程:针对特定行业、领域或场景的需求,通过数据工程生产高质量的中小 规模数据集,作为模型开发和调优的语料输入,包括数据采集、数据标注、数据 处理、数据生成、数据回流等过程; 2 YD/T XXXX-XXXX b)模型调优:通过各种调优技术对大模型进行参数调整或二次开发,以实现深度的、 精细化的模型优化,从而适配特定需求,包括提示工程、模型重训、模型微调、 强化学习等过程; c) 模型交付:经过调优后的模型通过交付流程,形成可部署的模型或服务,包括模 型压缩转换、模型测试、服务部署、模型管理等过程; (p 服务运营:部署后的模型或服务,需通过运营过程保证其模型性能、推理效果和 运行质量,包括服务编排、服务托管、服务监控、服务告警、结果和反馈等过程; e) 平台能力:平台是保障模型生产、调优、交付、部署、运营全过程高质效运行的 有力支撑,包括插件能力、资源调度与管理、安全管理、配置管理等能力要求。 6评估方法概述 针对模型运营部分的评估方法包括检测、测试和评分三类测评方法,具体为: a) 检查:检查是通过对测评对象进行观察、查验、分析以帮助测评人员理解、澄清或 取得证据的过程。检查主要有评审、核查、审查、观察、研究和分析等,检查对象 是大模型平台、文档材料等; b) 测试:测试是指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与 预期的结果进行比对的过程,主要包括人工评测、工具测试等测试操作。 7能力项描述 本文件从数据工程、模型调优、模型交付、服务运营、平台能力五方面对大模型系统的 运营能力进行评估: a) 数据工程:数据采集、数据标注、数据处理、数据生成、数据回流; b) 模型调优:提示工程、模型重训、模型微调、强化学习: ) 模型交付:模型压缩与转换、模型测试、模型部署、模型管理; (p 服务运营:服务编排、服务托管、服务监控、服务告警、结果和反馈; e) 平台能力:插件能力、资源调度与管理、安全管理(数据安全)、安全管理(模 型安全)、安全管理(模型可解释性)、安全管理(模型公平性)、配置管理、 其他支撑能力。 模型运营的具体能力项详见表1。 依据本文件规定的评估方法最终将得到各能力项的评估结果,评估方应根据运营需求综 合参考各能力项结果。 表1模型运营能力项 能力域 能力子域 数据采集 数据标注 数据工程 数据处理 数据生成 数据回流 模型调优 提示工程 3 YD/T XXXX-XXXX 模型重训 模型微调 强化学习 模型压缩与转换 模型测试 模型交付 模型部署 模型管理 服务编排 服务托管 服务运营 服务监控 服务告警 结果和反馈 插件能力 资源调度与管理 安全

.pdf文档 YD-T 6520.5-2025大规模预训练模型技术和应用评估方法 第5部分:模型运营 报批稿

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
YD-T 6520.5-2025大规模预训练模型技术和应用评估方法 第5部分:模型运营 报批稿 第 1 页 YD-T 6520.5-2025大规模预训练模型技术和应用评估方法 第5部分:模型运营 报批稿 第 2 页 YD-T 6520.5-2025大规模预训练模型技术和应用评估方法 第5部分:模型运营 报批稿 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-09-22 20:23:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。