SJ-T 11712-2018 智能电视语音识别测试方法

ICS 33.060.25 SJ M 74 备案号：63649-2018 中华人民共和国电子行业标准 SJ/T 11712—2018 智能电视语音识别测试方法 Speech recognition for smart television -Measurement method 2018-04-30发布 2018-07-01实施中华人民共和国工业和信息化部发布 SJ/T 117212018 前言《智能电视语音识别》由以下两个标准组成 -SJ/T11713-2018智能电视语音识别通用技术要求一本标准按照GB/T1.1-2009《标准化工作导则第1部分：标准的结构和编写》给出的规则起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本标准由全国音频、视频及多媒体系统与设备标准化技术委员会（SAC/TC242）提出并归口。本标准起草单位：工业和信息化部电子工业标准化研究院、科大讯飞股份有限公司、中科创达软件股份有限公司、国家数字音视频及多媒体产品质量监督检验中心、上海智臻网络科技有限公司、深圳数字电视国家工程实验室股份有限公司、国家广播电视产品质量监督检验中心、中国科学院声学研究所、青岛海尔电子有限公司、青岛海信电器股份有限公司、京东方科技集团股份有限公司、成都厚朴检测技术有限公司、四川长虹电器股份有限公司、深圳创维-RGB电子有限公司、天津三星电子有限公司、熊猫电子集团有限公司、康佳集团股份有限公司、北京三星通信技术研究有限公司、深圳赛西信息技术有限公司。本标准主要起草人：董桂官、赵志伟、程美、徐楠、刘云、杨震、黄海兵、严峻、朱频频、陈成才、常林、肖伟、程杨、董斌、付强、翟翌立、崔志龙、高雄勇、申成、邸贺亮、李璐、张志刚、唐礼、蔡福桥、李晓榕、张曼华、李欣研、傅云鹏、阙秀震、冉大为、胡海宁、钟善福 I SJ/T11721—2018 智能电视语音识别测试方法 1范围本标准规定了智能电视语音识别系统的测试方法。本标准适用于智能电视的中文语音识别系统的测试。其他智能终端产品（如智能机顶盒、平板电脑等）可参照使用本标准。注：本标准中，中文指中文、单个英文字母、厂商指定的英文单词的有限集合。规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB/T21023-2007中文语音识别系统通用技术规范 SJ/T11713-2018智能电视语音识别通用技术要求 3术语、定义和缩略语 3 3.1术语和定义 GB/T21023-2007、SJ/T11713-2018界定的以及下列术语和定义适用于本文件。 3.1.1 同构语音数据isomorphicspeechdata 除说话人不同外，其他语音属性相同或基本相同的语音数据集合。 3.1.2 传输有效性transmissioneffectiveness 录音在传输过程中正确达到目标接受装置的语音占总录音的比例。注：有效性越高表明录音传输质量越好。 3.1.3 副语言学paralinguisticfeature 言语中非音段的语音特征以及种种非语音信号。 3. 1. 4 关键槽keyslot 1 SJ/T11721—2018 关键槽是互联网智能检索的输入源中，对搜索结果具有关键性影响的重要信息点，具体信息点可由应用域来决定，一般由厂商来定义，如影视搜索中的关键槽就是影视剧名称。 3.1.5 命令词识别操控类集commandcontrolwordset 电视支持的操控类语音命令词的集合，不同的产品往往该集合不同。属于该集合的语音命令词为集内命令词；相应的，不属于该集合的语音命令词为集外命令词。 3.2缩略语下列缩略语适用于本文件。 MIPS：每秒执行百万指令数（MillionInstructionsPerSecond） RAM：随机存取存储器（RandomAccessMemory） ROM：只读存储器（Read-OnlyMemory） WCR：字准确率（WordCorrectRate） 4测试条件 4.1标准测试条件待测试智能电视应处于出厂设置状态，不加载其他应用程序；设置样机进入语音待识别界面，在接收到语音后能够即时开始识别。针对不同的网络配置（本地、网络、本地和网络融合）应需具备相应的网络条件。应在测试时保持稳定的网络接通状态；进行比对测试时，应限定网络传输速度在同一限定范围内。网络条件应满足：带宽不小于2Mbps，上传/下载速度不小于100kBps；可根据情况需要选择有线或无线连接方式，推荐使用有线网络进行测试。所使用网络环境应在测试报告中给出。当本地测试条件下与网络测试条件下的测试结果存在明显差异时，应当分别进行测试并分别给出测试结果。 4.2测试环境应在与使用环境相似的环境中进行测量，该环境可以是真实的家庭环境或者是在可以模拟家庭背景噪音的环境。背景噪声声级不超过35dB(A)，房间混响时间应在0.4s~0.5s范围内，不存在频率染色等声缺陷。测试时测试环境的背景噪声声级和混响时间应在测试报告中说明，测试应在下列测试用标准大气条件下进行：一环境温度：15℃~35℃，优选20℃；一相对湿度：25%~75%； —气压：86kPa~106kPa。 4.3测试语音 4.3.1概述测试语音有两类，一类是语音识别标准库中的语音，另一类是基于现场口呼或模拟口呼的语音，测试应尽量采用基于语音识别标准库的测试方法。无法采用基于语音识别标准库测试的，可采用基于现场口呼或模拟口呼的测试方法。测试语料的设计与语音库的录制应保证与实际使用场景的一致性。 2 SJ/T11721—2018 发音单元之间的间隔不超过2s；发音单元的持续时间应不小于0.2s；停顿时间超过2s，认为一次语音输入结束。 4.3.2测试语料设计测试语料应从词汇量覆盖、测试点覆盖以及领域覆盖等加以设计。测试集文本上分成若干组，每组可以由若干人发音组成。设计要求如下： a）对于命令词识别操控类每组测试集应包含所有词汇；特别的，类似电视频道切换到具体数字等情况，测试集应至少包含此类情况下的典型词汇； b）对于文字识别输入类、互联网智能检索类应充分考虑句型、词汇、语义等的覆盖性。 4.3.3测试语音录制测试语音录制要求如下： a) 说话人的选择应在符合系统对说话人限制的条件下，尽可能选择具有代表性和统计分布规律的发音人，特别是考虑不同口音、不同年龄、不同语速、不同教育背景、不同说话韵律等因素。 b) 测试的发音人至少为30个人以上，每人发音测试语料中的一组或多组语料；不同发音人尽量采用不同语料组。 c) 对于非特定人系统，特别应强调对含有一定口音的汉语语音适应能力和汉语声调问题 (p 测试语音的录制应与系统说明中的平台、采样率、输入通道等保持相对一致或接近；录音过程至少包括录音、标注和确认三个步骤，保证测试数据库的正确性。 4.4测试设备测试设备要求如下： a）声音重放设备：由信号发生器、功率放大器和扬声器组成。应满足以下条件：功率放大器和扬声器产生的声源幅度非线性影响值应足够小；一一声音重放设备产生的本底噪声应足够小。 b) 声压测试设备：声级计。 c) 识别时间测试设备：宜采用示波器或高速相机测试识别时间，或者开发自动化软件进行测试。 d）批量测试推荐使用自动化软件进行。 4.5测试距离遥控器的参考点由制造厂规定，如无规定，则默认传声器的主要入声口的几何中心为参考点；将参考点正对声源的几何中心，推荐测试距离为10cm，采用其他测试距离应在报告中给出；遥控器与智能电视之间的距离默认为电视屏幕高度的3倍，确认此时遥控器与智能电视之间可以正常通信，传输有效性不小于97% 测试电视机身时显示屏的几何中心正对声源的几何中心。推荐测试距离为2.5m，采用其他测试距离应在报告中给出。 5智能电视语音识别系统功能测试方法 5.1语音识别载体支持测试本测试用于测试智能电视是否支持遥控器、电视机身、机顶盒机身进行语音识别。测试步骤如下： 3

SJ-T 11712-2018 智能电视语音识别 测试方法

SJ-T 11712-2018 智能电视语音识别测试方法