专利一种基于遗传算法的语音攻击伪造方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111547400.0 (22)申请日 2021.12.16 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫街道孝陵卫街200号 (72)发明人李千目　梁洛浦　练智超　 (74)专利代理机构南京申云知识产权代理事务所(普通合伙) 32274 专利代理师田沛沛　邱兴天 (51)Int.Cl. H04L 9/40(2022.01) H04L 9/08(2006.01) H04K 3/00(2006.01) (54)发明名称一种基于遗传算法的语音攻击伪造方法 (57)摘要本发明公开一种基于遗传算法的语音攻击伪造方法，输入一个音频样本集合，通过遗传算法中的选择、交叉、变异三个步骤，对每次迭代过程中生成的音频样本进行改进并添加噪声，当当前解码与目标解码的编辑距离低于某个阈值时，使用梯度估计方法继续计算最优解，并使用心理声学隐藏思想，对梯度估计后得到的音频样本计算需要添加或修改的扰动大小，使生成的语音对抗样本更加不容易被察觉。本发明针对待攻击的语音识别模型，将遗传算法、梯度估计方法与心理声学隐藏思想相结合，计算最优的语音对抗样本，达到攻击语音识别模型的目标；能够有助于算法跳出局部最值，提高收敛速度，同时提高了生成的语音对抗样本的不易察觉性。权利要求书2页说明书4页附图1页 CN 114584337 A 2022.06.03 CN 114584337 A 1.一种基于遗传算法的语音攻击伪造方法，其特征在于，包括以下步骤： S1:针对待攻击的语音识别模型，使用遗传算法搜索音频对抗样本最优解； S2:在使用遗传算法即将寻找出音频对抗样本最优解时，使用梯度估计方法继续计算最优解； S3:使用心理声学隐藏思想，对步骤S2得到的音频样本计算需要添加或修改的扰动大小； S4:重复步骤S1、 S2和S3，直到计算出最优的音频对抗样本。 2.根据权利要求1所述的基于遗传算法的语音攻击伪造方法，其特征在于：步骤S1中，遗传算法接收一个音频样本输入集合，通过选择、交叉、变异三个步骤反复迭代，对每次迭代过程中生成的音频样本进行改进并添加噪声，使受到噪声干扰的对抗性音频样本与原音频样本类似，但被解码为特定的目标标签。 3.根据权利要求2所述的基于遗传算法的语音攻击伪造方法，其特征在于：在选择步骤中，对于每次迭代过程，计算音频集合中每个样本的得分，以确定哪些音频样本是最好的；采用的适应度函数是连接主义时间分类损失，然后通过从音频集合中选择具有最高评分的音频样本来形成精英群体。 4.根据权利要求2所述的基于遗传算法的语音攻击伪造方法，其特征在于：在交叉步骤中，从精英群体中选择两个音频样本作为亲代样本并执行交叉，通过从两个亲代样本中分别提取大约一半的特征来创建一个子代音频样本；选择音频样本作为亲代音频样本的依据是样本采用适应度函数的计算得分。 5.根据权利要求2所述的基于遗传算法的语音攻击伪造方法，其特征在于：在变异步骤中，将以一定的概率对交叉步骤生成的子代音频样本添加一个变异，采用动量突变方法计算变异概率，最后根据动量突变方法更新变异概率，使新的突变概率在每次迭代中更新而变化，并进入下一次迭代；通过多次迭代，音频种群得到持续改善，最终，算法将达到最大迭代次数并返回当前生成的音频对抗样本，或者得到符合条件的音频对抗样本，该音频对抗样本将解码为目标。 6.根据权利要求5所述的基于遗传算法的语音攻击伪造方法，其特征在于：新的突变概率pnew在每次迭代中根据下式(1)的加权更新而变化，并进入下一次迭代，其中， pold为上一次迭代中计算的突变概率， currScore为当前计算的音频种群中最高的适应度得分， prevScore为上一次迭代中所计算的音频种群中最高的适应度得分， α和β 为平衡突变概率与适应度得分权重的参数。 7.根据权利要求1所述的基于遗传算法的语音攻击伪造方法，其特征在于：步骤S2中，使用的梯度估计方法计算最优解的方法如式(2)所示：其中， x指的是能够表示音频文件的输入向量， δi指的是一个值充分小的扰动向量， g权　利　要　求　书 1/2 页 2 CN 114584337 A 2(·)表示评估函数，具体为CTC Loss函数。 8.根据权利要求1所述的基于遗传算法的语音攻击伪造方法，其特征在于：步骤S3中，使用心理声学隐藏思想计算音频样本需要添加或修改的扰动大小的方法，具体包括以下步骤： S31：对于给定的音频输入，计算其掩蔽阈值； S32：扰动大小δ仅受掩蔽阈值约束，具体来说，在每次迭代中，对于遗传算法和梯度估计产生的音频对抗样本，为对其添加的扰动进行优化，使用式(3)更新扰动 δ：其中， lr2为学习速率，为l相对于δ 的梯度， l( ·)为损失函数， α 为损失平衡参数，初始时α 为一个充分小的值，并根据攻击过程的变化自适应更新。权　利　要　求　书 2/2 页 3 CN 114584337 A 3

专利 一种基于遗传算法的语音攻击伪造方法

专利一种基于遗传算法的语音攻击伪造方法