ICS 03.080.99;35.240.30 CCS A 10 中华人民共和国国家标准 GB/T 40035—2021 双语平行语料加工服务基本要求 Basic requirements for bilingual parallel corpus processing service 2021-04-30发布 2021-11-01实施 国家市场监督管理总局 发布 国家标准化管理委员会 GB/T 40035—2021 目 次 前言 范围 2 规范性引用文件 3 术语和定义 总则 5 基本要求 5.1 服务提供方 5.2 语料加工人员 5.3 服务环境 5.4 加工内容 5.5 加工结果 5.5.1 完整性 5.5.2 准确性 5.5.3 可用性 5.5.4 规范性 5.6语料加工工具 5.6.1 可靠性 5.6.2 易用性 5.6.2.1 本地化界面·. 5.6.2.2 操作功能 5.6.2.3 帮助系统· 5.6.2.4 效率 5.6.3兼容性 6 加工流程 6.1预处理 6.1.1 语料准备 6.1.2 清洗 6.1.3 去重 6.1.4 脱敏 6.2语料对齐 6.3 语料审核 服务内容 7.1 需求沟通 7.2 客户协议 7.3 项目管理 7.4 加工环节 GB/T 40035—2021 7.5 交付内容 7.6 质量保证期 7.7 服务评价与改进 8数据安全 8.1 数据备份 8.2 文档管理与日志 8.3 数据存储 附录A(资料性) 双语平行语料加工人员的培训 附录B(资料性) 双语语料加工的元数据 附录C(资料性) TXT文件常见编码格式 11 附录D(资料性) TMX格式规范 12 附录E(资料性) 文件的命名规则、编码格式及文件格式 14 参考文献 GB/T40035—2021 前言 本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国语言与术语标准化技术委员会(SAC/TC62)提出并归口。 本文件起草单位:中国标准化研究院、中国翻译协会、上海一者信息科技有限公司、上海佑译信息科 技有限公司、中译语通科技股份有限公司、北京悦尔信息技术有限公司、苏州联跃科技有限公司、四川语 言桥信息技术有限公司、北京百度网讯科技有限公司、沈阳雅译网络技术有限公司、上海智膳合网络科 技有限公司、北京语言大学、北京邮电大学 本文件主要起草人:刘智洋、张井、叶剑、柴瑛、黄宝荣、罗慧芳、蒙永业、朱励、张雪涛、王海涛、朱宪超 韩林涛、郑春萍、何中军、于立梅、张春良、甘克勤、张宝林。 GB/T 40035—2021 双语平行语料加工服务基本要求 1范围 本文件规定了双语平行语料加工服务的基本要求、加工流程、服务内容和数据安全等内容。 本文件适用于以原文和译文为对象的、以文字为表达形式的数字化双语语料加工服务,其他数字化 文本的语料加工也可参照使用,也适用于对语料对齐工具的评价 2 规范性引用文件 本文件没有规范性引用文件。 3 术语和定义 下列术语和定义适用于本文件。 3.1 文本 text 以字符、符号、词、短语、段落、句子、表格或其他字符排列形成的数据,用于表达意义,其解释基本上 取决于读者对于某种自然语言或人工语言的知识 [来源:GB/T4894—2009,4.1.1.2.4] 3.2 语料 corpus 语言材料或资料。 3.3 双语平行语料 +bilingual parallel corpus 由两种语言构成,并在篇章、段落、句子或其他级别平行对齐的语料(3.2)。 3.4 原文 source language text 源语言文本(3.1)。 L来源:GB/T19363.1一2008,3.4,有修改 3.5 译文 target language text 目标语言文本(3.1)。 [来源:GB/T19363.1—2008,3.5,有修改] 3.6 客户client 接受按其要求提供产品或服务的个人或组织。 [来源:GB/T19000—2016,3.2.4,有修改] 3.7 元数据 metadata 关于数据的内容、质量、状况和其他特性的描述性数据。 1 GB/T40035—2021 3.8 服务提供方serviceprovider 提供服务的个人或组织。 3.9 光学学符识别 optical character recognition;OCR 自动识别通过扫描仪、数码相机、摄像机等得到的图像中的字符,便于存储、编辑和检索。 [来源:GB/T31219.2—2014,3.4] 3.10 TMXTranslation Memory eXchange 翻译记忆交换的标准格式。 3.11 语料对齐corpus alignment 将双语语料(32)进行篇章、段落、句子或其他级别的对齐,构成平行对照的形式 3.12 语料对齐工具 corpus alignment tool 用于将双语文本对齐,并能制作成双语平行语料(3.3)的工具。 3.13 纠正correction 为消除已发现的不合格内容所采取的措施, [来源:GB/T19000—2016,3.12.3] 3.14 脱敏de-identification 去除可确认个人或组织身份的数据与数据主体之间联系的过程。 [来源:ISO/TS25237:20083.18] 3.15 敏感信息 sensitiveinformation 如果公开或者滥用会造成潜在危害的信息。 [来源:GB/T4894—2009,4.7.3.2.4,有修改] 3.16 匿名化数据anonymizeddata 去除直接涉及数据主体的个人或组织数据。 「来源:GB/T48942009.4.7.3.2.3,有修改 4总则 4.1双语平行语料加工服务是将客户提供的原文和译文的文本内容按段落、句子或其他级别建立对应 关系的一种服务。 4.2双语平行语料加工服务的目的是获取双语对齐的文本资料,为计算机辅助翻译、机器翻译和语言 学研究提供基础数据。 4.3双语平行语料加工的对象包括原文、译文和加工文本的元数据。 2 GB/T40035—2021 4.4双语平行语料加工服务提供方(以下简称“服务提供方”)对译文不进行审核,译文质量由客户 保证。 4.5双语平行语料加工服务可以采用多个工具完成,也可以在一个集成环境中完成。该环境应集成对 齐元数据采集等功能,以适应双语平行语料加工服务的需要。 5基本要求 5.1服务提供方 服务提供方应具备以下条件: a) 建立完备的语料加工流程体系,包括但不限于数据预处理、语料对齐,项目管理、质量审核等: b) 配备合格的语料加工人员; c) 配备稳定可用的语料对齐工具及相关文字处理工具; (P 配备可完成语料加工服务的场所。 5.2语料加工人员 服务提供方应确保双语平行语料加工人员具备以下能力: a) 阅读源语言和目标语言的能力:能理解源语言和目标语言,并能快速阅读原文和译文; b) 研究和处理文本的能力:能拓展必要的文本处理及专业知识,并能制定策略来有效利用现有 资源; c) 技术能力:利用技术资源,包括使用工具和信息系统支撑整个语料加工过程,完成其中的各项 技术任务 注:双语平行语料加工人员的培训见附录A。 5.3服务环境 服务提供方的服务环境应拥有完成双语语料加工所需的技术设备和办公设备,如光学识别工具、对 齐工具等。客户可与服务提供方药定加工时使用的工具名称和版本。 服务提供方的保密环境及级别应符合客户对语料保密的要求,按客户的要求配备保密设备、进行安 全加固、为语料加工人员开展保密培训等。 5.4加工内容 双语语料应由客户提供,语料可来自正式出版物、公司内部资料、网站等 双语语料的加工应优先选择数字化后的双语语料,尚未数字化的双语语料,可通过扫描或拍照等手 段,后采用光学字符识别的方式转换成数字化形式,或直接通过键盘录人。 通过光学字符识别或键盘录入的双语语料应增加校对环节保证内容的质量。 5.5加工结果 5.5.1完整性 在符合客户数据处理要求的前提下,服务提供方的加工结果应保证原文,译文及元数据的完整性 确保加工结果无信息丢失 注:双语语料加工的元数据见附录B 5.5.2准确性 在符合客户数据处理要求的前提下,服务提供方的加工结果应保证原文和译文对应关系的准确性 3
GB/T 40035-2021 双语平行语料加工服务基本要求
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2022-10-04 15:38:21上传分享