专利一种基于多特征融合策略的音乐生成舞蹈姿势方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221045895 6.0 (22)申请日 2022.04.27 (71)申请人西南科技大学地址 621000 四川省绵阳市涪城区 (72)发明人俞文心　高宇飞　刘宇欣　吴筱迪　龚俊　刘畅　 (74)专利代理机构成都帝鹏知识产权代理事务所(普通合伙) 5126 5 专利代理师罗旭 (51)Int.Cl. G06V 40/20(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 21/10(2013.01)G06V 10/77(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于多特征融合策略的音乐生成舞蹈姿势方法 (57)摘要本发明公开一种基于多特征融合策略的音乐生成舞蹈姿势方法，包括步骤：特征提取：将音频文件进行预处理获得音频序列，将音频序列转化为特征数据，特征数据由结构特征、节拍特征和风格特征构成；特征融合：将结构特征、节拍特征和风格特征进行融合，得到音乐特征表示；姿态生成：将音乐特征表示输入姿态生成器获得舞蹈姿态。本发明能够提高动作与音乐在风格和节奏上协调性，提高了舞蹈动作的丰富性。权利要求书1页说明书4页附图2页 CN 114998984 A 2022.09.02 CN 114998984 A 1.一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，包括步骤：特征提取：将音频文件进行预处理获得音频序列，将音频序列转化为特征数据，特征数据由结构特征、节拍特征和风格特征构成；特征融合：将结构特征、节拍特征和风格特征进行融合，得到音乐特征表示；姿态生成：将音乐特征表示输入姿态生成器获得舞蹈姿态。 2.根据权利要求1所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，将音频文件进行预处理获得音频序列，包括步骤：对音频文件仅采样获得表示波形的一维数组；对一维数组进行切分，获得每帧对应时长的音频单元；对所获得的多个音频单元进行组合获得音频序列。 3.根据权利要求1所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，所述特征提取过程由结构提取器、风格提取器和节拍提取器构成；所述结构提取器提取结构特征向量，节拍提取器提取节拍特征向量，风格提取器提取风格特征向量，最后将得到的三组特征向量进行拼接作为表示音乐的特征向量。 4.根据权利要求3所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，所述结构提取器，由一个音频编码器对音乐文件编码，编码后得到的向量经过LSTM网络之后使用注意力机制处理来得到结构特征向量。 5.根据权利要求3所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，所述风格提取器，由一个音频编码器对音乐文件编码，对编码后的向量直接使用预训练的音乐风格提取器提取风格特征，得到风格特征向量。 6.根据权利要求3所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，所述节拍提取器，使用开源工具提取，获得节拍特征向量。 7.根据权利要求3所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，在所述特征融合过程中，采用自编码器进行融合，将上一阶段得到的拼接的特征向量经过自编解码器，三种特征得到融合，形成一个综合的特征表示作为音乐的特征表示。 8.根据权利要求1或7所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，所述姿态生成器采用基于GAN的图像生成网络，包括姿态特征生成器、连贯性判别器和风格判别器；将音乐的特征表示输入姿态特征生成器，输出姿态动作；将姿态动作分别输入连贯性判别器和风格判别器，连贯性判别器和风格判别器来约束生成的舞蹈姿态。 9.根据权利要求8所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，将姿势动作用骨骼关键点序列表示，由开源工具获取，得到序列形状。 10.根据权利要求8所述的一种基于多特征融合策略的音乐生成舞蹈姿势方法，其特征在于，网络在姿势生成过程中基于 GAN的图像生成网络来生成表示姿势的数据，其中姿态特征生成器中的损失由三部分组成，分别是对抗损失、基于关节点的重构损失和特征匹配损失。权　利　要　求　书 1/1 页 2 CN 114998984 A 2一种基于多特征融合策略的音乐生成舞蹈姿势方法技术领域 [0001]本发明属于计算机舞蹈编排技术领域，特别是涉及一种基于多特征融合策略的音乐生成舞蹈姿势方法。背景技术 [0002]音乐处理技术和动作捕捉技术的不断发展，基于音乐的舞蹈动作合成技术逐渐成为音乐理解和舞蹈合成领域的研究热点，而如何提高音乐和舞蹈的匹配以及合成舞蹈的真实性是研究的关键点。 [0003]统计模型是这类任务最早的工作，比如基于核的概率分布来合成动作，缺点是缺少动作细节；动作图以一个非参的方式解决了缺少动作细节的问题，动作图是一个动作数据集上的有向图，每个节点表示一个姿势，每条边表示两个姿势之间的过渡，通过随机在图上游走来生成动作，缺点是生成的过渡的合理性，一些方法通过参数化过渡来解决这个问题。基于核的概率分布的方法，缺乏动作细节，变现为动作极度僵硬；动作图的方法把问题转化为在图上寻找最优路径，通过一个非参的方式解决了缺乏动作细节的问题，并且在动作图里加入节拍信息可以合成有节奏的动作，但是动作之间合理的过渡比较困难，动作之间不连贯，表现为像多段动作的拼接。 [0004]现在更多的是使用神经网络来生成3D动作，像RNN这样的自回归模型理论上可以生成无穷的动作，由于其本身具有错位累积的问题，在几轮迭代后出现动作僵直、漂移等不自然现象。分阶段的神经网络和它的变体通过在每个阶段调整网络权重解决了这个问题。虽然，分阶段训练网络通过阶段性地调整网络权重来使僵直问题得到缓和；但是它不能表示很多种类的动作，表示的动作丰富性欠缺，动作与音乐在风格和节奏上协调的也不是很理想。发明内容 [0005]为了解决上述问题，本发明提出了一种基于多特征融合策略的音乐生成舞蹈姿势方法，提高动作与音乐在风格和节奏上协调性，提高了舞蹈动作的丰富性。 [0006]为达到上述目的，本发明采用的技术方案是：一种基于多特征融合策略的音乐生成舞蹈姿势方法，包括步骤： [0007]特征提取：将音频文件进行预处理获得音频序列，将音频序列转化为特征数据，特征数据由结构特征、节拍特征和风格特征构成； [0008]特征融合：将结构特征、节拍特征和风格特征进行融合，得到音乐特征表示； [0009]姿态生成：将音乐特征表示输入姿态生成器获得舞蹈姿态。 [0010]进一步的是，将音频文件进行预处理获得音频序列，包括步骤： [0011]对音频文件仅采样获得表示波形的一维数组； [0012]对一维数组进行切分，获得每帧对应时长的音频单元； [0013]对所获得的多个音频单元进行组合获得音频序列。说　明　书 1/4 页 3 CN 114998984 A 3

专利 一种基于多特征融合策略的音乐生成舞蹈姿势方法

专利一种基于多特征融合策略的音乐生成舞蹈姿势方法