专利基于影响分数的神经网络模型关键数据挖掘方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211270959.8 (22)申请日 2022.10.18 (65)同一申请的已公布的文献号申请公布号 CN 115345262 A (43)申请公布日 2022.11.15 (73)专利权人南京工业大学地址 211899 江苏省南京市江北新区浦珠南路30号专利权人绍兴兰红智能科技有限公司 (72)发明人徐嘉昊　张帆　 (74)专利代理机构南京科阔知识产权代理事务所(普通合伙) 3240 0 专利代理师苏兴建 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/08(2006.01) G10L 15/16(2006.01) G10L 25/30(2013.01) G10L 25/63(2013.01) (56)对比文件 CN 111429948 A,2020.07.17 CN 114692621 A,202 2.07.01CN 114359665 A,2022.04.15 CN 110851491 A,2020.02.28 CN 114358014 A,202 2.04.15 US 78490 32 B1,2010.12.07 CN 112905891 A,2021.0 6.04 US 2006253418 A1,20 06.11.09 徐鸣珂等.Head Fusi on:一种提高语音情绪识别的准确性和鲁棒性的方法. 《计算机科学》 .2022,第49卷(第7期), 任颖等.卷积神经网络 CNN算法在文本分类上的应用研究. 《现代计算机(专业版)》 .2010, (第3期), 王琴.数据挖掘在银行电话营销中的应用. 《中国优秀硕士学位论文全文数据库》 .2017, Feng Shen 等.A novel ensemble classificati on model based o n neural networks and a clas sifier optimisati on technique for imbalanced credit risk evaluati on. 《Physica A: Statistical Mechanics and its Ap plications》 .2019,第 526卷 (续) 审查员刘利 (54)发明名称基于影响分数的神经网络模型关键数据挖掘方法 (57)摘要一种基于影响分数的神经网络模型关键数据挖掘方法，通过神经网络模型的训练数据和测试数据求出对应的关键数据，步骤包括：步骤1）取待提取样本数据集，进行数据预处理，获得预处理数据集；步骤2）采用神经网络模型，设置多个检查点，分别跟踪记录训练过程每一次迭代的结果；步骤3）计算每个训练数据的影响分数后排序，选择影响分数排名最大的关键数据。本关键数据挖掘方法适用于基于神经网络模型的图像分类模型、文本分类模型或语音情绪识别模型。本方法可解决模型决策系统不透明的问题，在提升准确率和速度的基础上，优化数据质量以及提升模型收敛速度。 [转续页] 权利要求书2页说明书6页附图6页 CN 115345262 B 2022.12.27 CN 115345262 B (56)对比文件候小培等.卷积神经网络 CNN算法在文本分类上的应用研究. 《微计算机信息》 .2019, Yun Qin等.On Sample Based Explanati on Methods for Sequence-to Sequence Applications. 《2022 7th Internati onal Conference o n Computati onal Intelligence and Applications(ICCIA)》 .202 2,2/2 页 2[接上页] CN 115345262 B1.一种基于影响分数的神经网络模型关键数据挖掘方法，通过神经网络模型的训练数据和测试数据求出对应的关键数据，神经网络模型是NLP的语音情绪识别模型，其特征是包括以下步骤：步骤1）对待提取音频样本数据集，进行数据预处理，获得预处理数据集；步骤2）在语音情绪识别模型的训练过程中，设置多个检查点，分别跟踪记录训练过程每一次迭代的结果；步骤3）通过计算每个训练数据的影响分数，挖掘关键数据，步骤包括：步骤301）把步骤1）预处理后的数据集分为训练数据和测试数据；步骤302）训练数据的表示序列 Dtrain=[z1,z2,…,zm]，测试数据的表示序列 Dtest=[z’1, z’2,…,z’n]；步骤303）训练实例 z对测试实例 z’的影响定义为：每当使用训练实例 z时由训练过程引起的测试实例 z’上的损失的总减少；计算第i个训练实例 zi对测试实例 z’的影响Vi，即从第t次迭代更新到第 t+1次迭代时，测试实例的损失减少 Vi=l(wt, z’)‑ l(wt+1, z’)；w表示迭代过程， wt表示的第 t次迭代，l (*)表示实例的损失；步骤304）设置每次完整的训练为一个检查点；计算每个检查点下，所有训练实例对所有测试实例的影响矩阵 Influ(Dtrain, Dtest)；获取影响矩阵中一个训练实例对每个测试实例的影响并相加，得到该训练实例的影响分数Si，表示为Si=Σn j=0V(zi, z’j|Dtest)；步骤305）按照步骤304）的方法计算所有训练实例的影响分数，将所有影响分数进行排序，表示为InfSort(zi| Dtrain)= Sort(S1,S2,…,Sn)；步骤306）在步骤305）的排序中，分别取排名前列的影响分数对应的训练实例作为关键数据，重新输入语音情绪识别模型；步骤1）中，对数据集进行预处理的步骤包括：步骤101）使用交互式情绪二元运动捕捉数据库IEMOCAP，获取语音片段作为独立的音频训练样本；步骤102）设置采样率16 000，使用librosa提取音频样本的特征；步骤103）对步骤102）提取的特征进行分割，分割为时长5秒的片段，不足5秒的进行补零操作，使时长达到5秒，相邻片段之间具有2秒的重叠，每个片段和原样本是相同的情绪标签。 2.根据权利要求1所述的基于影响分数的神经网络模型关键数据挖掘方法，其特征是步骤2）中的语音情绪识别模型是CNN模型。 3.根据权利要求1所述的基于影响分数的神经网络模型关键数据挖掘方法，其特征是步骤301）中，使用5折交叉验证，将步骤1）预处理后的数据集平均分为5个部分，每次取其中四份组成训练数据，剩下一份作为测试数据，做五次实验取平均值作为结果，最终把数据集分为80%的训练数据 Dtrain和20%的测试数据Dtest；步骤302）中，其中n=m/4；步骤303）中，迭代为：使用一个Batch数据对神经网络模型进行一次参数更新的过程；设置Batc h为1，即每次获得一个训练实例对测试实例的影响；权　利　要　求　书 1/2 页 2 CN 115345262 B 3

专利 基于影响分数的神经网络模型关键数据挖掘方法

专利基于影响分数的神经网络模型关键数据挖掘方法