专利音频摘要模型训练方法、系统、电子设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111664811.8 (22)申请日 2021.12.31 (71)申请人思必驰科技股份有限公司地址 215123 江苏省苏州市苏州工业园区新平街38 8号腾飞创新园14栋 (72)发明人俞凯　吴梦玥　徐薛楠　 (74)专利代理机构北京商专永信知识产权代理事务所(普通合伙) 11400 代理人黄谦　邓婷婷 (51)Int.Cl. G06F 16/635(2019.01) G06F 16/64(2019.01) G06F 40/194(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称音频摘要模型训练方法、系统、电子设备和存储介质 (57)摘要本发明公开音频摘要模型训练方法、系统、电子设备和存储介质，其中，一种音频摘要模型训练方法，包括：同时训练一个判别器和一个音频摘要模型，其中，所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c，其中，所述条件c用于表征所述音频摘要与所述标注文字的相似度；通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。本申请实施例的方法同时训练一个对于输出文本的风格的判别器和一个音频摘要模型，通过对抗学习，能够迫使音频摘要模型能够输出给定条件的摘要，之后可以通过收集更加风格多变的标注文本，做到更加可控制的、准确的且多样化的音频摘要生成。权利要求书1页说明书10页附图3页 CN 114329039 A 2022.04.12 CN 114329039 A 1.一种音频摘要模型训练方法，包括：同时训练一个判别器和一个音频摘要模型，其中，所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c，其中，所述条件c用于表征所述音频摘要与所述标注文字的相似度；通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。 2.根据权利要求1所述的方法，其中，所述通过对所述判别器和所述音频摘要模型进行对抗训练包括：利用所述音频摘要模型输出的音频摘要和所述标注文字之间的交叉熵损失以及所述条件c和真实条件c的条件损失对所述音频摘要模型和所述神经网络判别器进行对抗训练。 3.根据权利要求2所述的方法，其中，所述音频摘要模型包括音频编码器和文本解码器，所述音频编码器用于将输入音频编码成音频嵌入序列，所述文本解码器根据所述音频嵌入序列和所述判别器的条件c生成单词概率。 4.根据权利要求3所述的方法，其中，所述通过对所述判别器和所述音频摘要模型进行对抗训练包括：在所述对抗训练的过程中采用第一阶段和第二阶段交替进行，其中，所述第一阶段包括：仅更新所述音频摘要模型的参数，固定所述判别器的参数，所述音频摘要模型使用音频输入和所述条件c估计单词概率，使用所述交叉熵损失和所述条件损失进行训练；所述第二阶段包括：固定所述音频摘要模型的参数，仅更新所述判别器的参数，所述判别器在所述标注文字和所述音频摘要模型的输出上进行训练。 5.根据权利要求1 ‑4中任一项所述的方法，其中，所述音频编码器包括一个固定的14层卷积神经网络特征提取器和一个可训练的三层双向门控循环单元编码器，所述文本解码器包括单向单层门控循环单元，所述文本解码器采用注意力机制对音频嵌入序列进行聚合。 6.根据权利要求1 ‑4中任一项所述的方法，其中，所述判别器包括使用双层双向长短时记忆对输入的音频摘要进行编码。 7.根据权利要求1 ‑6中任一项所述的方法，还包括：获取用户给定的条件c，将所述音频嵌入序列和所述用户给定的条件c输入训练后的所述文本解码器，输出符合所述用户给定的条件c的音频摘要。 8.一种音频摘要系统，包括：根据权利要求1 ‑7中任一项所述的音频编码器；根据权利要求1 ‑7中任一项所述的文本解码器；根据权利要求1 ‑7中任一项所述的判别器。 9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。 10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。权　利　要　求　书 1/1 页 2 CN 114329039 A 2音频摘要模型训练方法、系统、电子设备和存储介质技术领域 [0001]本发明属于音频摘要模型训练技术领域，尤其涉及音频摘要模型训练方法、系统、电子设备和存储介质。背景技术 [0002]自动音频摘要是一项具有挑战性的任务，需要识别和理解音频内容，然后用自然语言对其进行总结。摘要可能包括声学场景、声音事件、声音属性甚至高层的抽象语义信息。与结构化的标签输出相比，音频摘要与人类处理音频的方式更加相关，适用于自动内容描述或智能人机交互应用。 [0003]近年来，音频摘要引起了很多关注。研究人员旨在通过结合预训练和关键词额外输入等方法来提高描述的准确性。然而，与大多数自然语言生成任务一样，音频摘要也存在多样性不足的问题。通过最大似然估计(maximum likelihood estimation， MLE)训练的系统倾向于生成通用的输出，通常是训练语料库中最常见的模式。相比之下，人工标注会用不同的风格来描述相同的音频片段，包括句子结构、措辞选择。 [0004]虽然之前的一些工作已经解决了多样性问题，但其中大多数工作在表现出更高多样性的同时，准确性却有所下降。一些工作侧重于生成更具描述性的、内容相关的输出。例如，鼓励系统把 “一把刀”而不是“一个金属物体 ”放在磨刀的音频片段中。这样，当为一个音频生成相同数量的摘要时，由于描述更详细，因此提高了该音频摘要总体的多样性。其他工作努力通过为单个输入生成更多输出来提高多样性。与单输出系统相比，给定相同输入的多个输出导致输入实例具有更高的多样性。对于促进集合多样性的工作，多样性改进带来的摘要准确性下降尤其显著，例如基于GAN的方法。 [0005]在音频摘要中， Ikawa等人提出了一种控制输出特异性的系统，即生成的摘要内容的具体程度。逆词频之和被用来当做句子特异性的指标。该工作可以生成具有不同给定特异性的多个摘要。这种统计条件虽然简单明了，但它只捕捉了词频特征，而没有考虑短语和句子结构等模式，可能出现这样的情况：鼓励模型生成不是最通用的表达，但在训练语料库中仍然很常见(即 “亚通用”)的表达。发明内容 [0006]本发明实施例提供一种音频摘要模型训练方法和系统和装置，用于至少解决上述技术问题之一。 [0007]第一方面，本发明实施例提供一种音频摘要模型训练方法，包括：同时训练一个判别器和一个音频摘要模型，其中，所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c，其中，所述条件c用于表征所述音频摘要与所述标注文字的相似度；通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。 [0008]第二方面，本发明实施例提供一种音频摘要系统，包括：根据本申请任一实施例的说　明　书 1/10 页 3 CN 114329039 A 3

专利 音频摘要模型训练方法、系统、电子设备和存储介质

专利音频摘要模型训练方法、系统、电子设备和存储介质