全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111664811.8 (22)申请日 2021.12.31 (71)申请人 思必驰科技股份有限公司 地址 215123 江苏省苏州市苏州工业园区 新平街38 8号腾飞创新园14栋 (72)发明人 俞凯 吴梦玥 徐薛楠  (74)专利代理 机构 北京商专永信知识产权代理 事务所(普通 合伙) 11400 代理人 黄谦 邓婷婷 (51)Int.Cl. G06F 16/635(2019.01) G06F 16/64(2019.01) G06F 40/194(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 音频摘要模型训练方法、 系统、 电子设备和 存储介质 (57)摘要 本发明公开音频摘要模型训练方法、 系统、 电子设备和存储介质, 其中, 一种音频摘要模型 训练方法, 包括: 同时训练一个判别器和一个音 频摘要模型, 其中, 所述判别器用于对对所述音 频摘要模型输出的音频摘要和标注文字进行判 别得到条件c, 其中, 所述条件c用于表征所述音 频摘要与所述标注文字的相似度; 通过对所述判 别器和所述音频摘要模型进行对抗训练以使所 述音频摘要模 型能够输出给定条件的音频摘要。 本申请实施例的方法同时训练一个对于输出文 本的风格的判别器和一个音 频摘要模 型, 通过对 抗学习, 能够迫使音 频摘要模型能够输出给定条 件的摘要, 之后可以通过收集更加风格多变的标 注文本, 做到更加可控制的、 准确的且多样化的 音频摘要生成。 权利要求书1页 说明书10页 附图3页 CN 114329039 A 2022.04.12 CN 114329039 A 1.一种音频摘要模型训练方法, 包括: 同时训练一个判别器和一个音频摘要模型, 其中, 所述判别器用于对对所述音频摘要 模型输出 的音频摘要和标注文字进行判别得到条件c, 其中, 所述条件c用于表征所述音频 摘要与所述标注文字的相似度; 通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输 出给定条件的音频摘要。 2.根据权利要求1所述的方法, 其中, 所述通过对所述判别器和所述音频摘要模型进行 对抗训练包括: 利用所述音频摘要模型输出的音频摘要和所述标注文字之间的交叉熵损失以及所述 条件c和真实条件c的条件损失对所述音频摘要模型和所述神经网络判别器进行对抗训练。 3.根据权利要求2所述的方法, 其中, 所述音频摘要模型包括音频编码器和文本解码 器, 所述音频编码器用于将输入音频编码成音频嵌入序列, 所述文本解码器根据所述音频 嵌入序列和所述判别器的条件c生成单词概 率。 4.根据权利要求3所述的方法, 其中, 所述通过对所述判别器和所述音频摘要模型进行 对抗训练包括: 在所述对抗训练的过程中采用第一阶段和第二阶段交替进行, 其中, 所述第一阶段包括: 仅更新所述音频摘要模型的参数, 固定所述判别器的参数, 所述音频摘要模型使用音频输入和所述条件c估计单词概率, 使用所述交叉熵损失和所述 条件损失进行训练; 所述第二阶段包括: 固定所述音频摘要模型的参数, 仅更新所述判别器的参数, 所述判 别器在所述标注文字和所述音频摘要模型的输出 上进行训练。 5.根据权利要求1 ‑4中任一项所述的方法, 其中, 所述音频编码器包括一个 固定的14层 卷积神经网络特征提取器和一个可训练的三层双向门控循环单元编 码器, 所述文本解码 器 包括单向单层门控循环单 元, 所述文本解码器采用注意力机制对音频嵌入序列进行聚合。 6.根据权利要求1 ‑4中任一项所述的方法, 其中, 所述判别器包括使用双层双向长短时 记忆对输入的音频摘要 进行编码。 7.根据权利要求1 ‑6中任一项所述的方法, 还 包括: 获取用户给定的条件c, 将所述音频嵌入序列和所述用户给定的条件c输入训练后的所 述文本解码器, 输出符合所述用户给定的条件c的音频摘要。 8.一种音频摘要系统, 包括: 根据权利要求1 ‑7中任一项所述的音频编码器; 根据权利要求1 ‑7中任一项所述的文本解码器; 根据权利要求1 ‑7中任一项所述的判别器。 9.一种电子设备, 其包括: 至少一个处理器, 以及与所述至少一个处理器通信连接的存 储器, 其中, 所述存储器存储有 可被所述至少一个处理器执行的指 令, 所述指 令被所述至少 一个处理器执行, 以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步 骤。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执行时实 现权利要求1至8任一项所述方法的步骤。权 利 要 求 书 1/1 页 2 CN 114329039 A 2音频摘要模型训练方 法、 系统、 电子 设备和存储介质 技术领域 [0001]本发明属于音频摘要模型训练技术领域, 尤其涉及音频摘要模型训练方法、 系统、 电子设备和存 储介质。 背景技术 [0002]自动音频摘要是一项具有挑战性的任务, 需要识别和理解音频内容, 然后用自然 语言对其进行总结。 摘要可能包括声学场景、 声音事件、 声音属性甚至高层的抽象语义信 息。 与结构化的标签输出相比, 音 频摘要与人类处理音频的方式更加相关, 适用于自动内容 描述或智能人机交 互应用。 [0003]近年来, 音频摘要引起了很多关注。 研究人员旨在通过结合预训练和关键词额外 输入等方法来提高描述的准确性。 然而, 与大多 数自然语言生成任务一样, 音频摘要也存在 多样性不足的问题。 通过最大似然估计(maximum  likelihood  estimation, MLE)训练的系 统倾向于生成通用的输出, 通常是训练语料库中最常见的模式。 相比之下, 人工标注会用不 同的风格来描述相同的音频片段, 包括句子结构、 措辞选择。 [0004]虽然之前的一些工作已经解决了多样性问题, 但其中大多数工作在表现出更高多 样性的同时, 准确性却有所下降。 一些工作侧重于生成更具描述性的、 内容相关的输出。 例 如, 鼓励系统把 “一把刀”而不是“一个金属物体 ”放在磨刀的音 频片段中。 这样, 当为一个音 频生成相同数量的摘要时, 由于描述更详细, 因此提高了该音频摘要总体的多样性。 其他工 作努力通过为单个输入生成更多输出来提高多样性。 与单输出系统相比, 给定相同输入的 多个输出导致输入实例具有更高的多样性。 对于促进集合多样性的工作, 多样性改进带来 的摘要准确性下降尤其显著, 例如基于GAN的方法。 [0005]在音频摘要中, Ikawa等人提出了一种控制输出特异性的系统, 即生成的摘要内容 的具体程度。 逆词 频之和被用来当做句 子特异性的指标。 该工作可以生成具有不同给定特 异性的多个摘要。 这种统计条件虽然简单明了, 但它只捕捉了词频特征, 而没有考虑短语和 句子结构等模式, 可能出现这样的情况: 鼓励 模型生成不是最通用的表达, 但在训练语料库 中仍然很常见(即 “亚通用”)的表达。 发明内容 [0006]本发明实施例提供一种音频摘要模型训练方法和系统和装置, 用于至少解决上述 技术问题之一。 [0007]第一方面, 本 发明实施例提供一种音频摘要模型训练方法, 包括: 同时训练一个判 别器和一个音频摘要模型, 其中, 所述判别器用于对对所述音频摘要模型输出 的音频摘要 和标注文字进行判别得到条件c, 其中, 所述条件c用于表征所述音频摘要与所述标注文字 的相似度; 通过对所述判别器和所述音频摘要模型进 行对抗训练以使 所述音频摘要模型能 够输出给定条件的音频摘要。 [0008]第二方面, 本 发明实施例提供一种音频摘要系统, 包括: 根据本申请任一实施例的说 明 书 1/10 页 3 CN 114329039 A 3

.PDF文档 专利 音频摘要模型训练方法、系统、电子设备和存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 音频摘要模型训练方法、系统、电子设备和存储介质 第 1 页 专利 音频摘要模型训练方法、系统、电子设备和存储介质 第 2 页 专利 音频摘要模型训练方法、系统、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:46:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。