全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211270959.8 (22)申请日 2022.10.18 (65)同一申请的已公布的文献号 申请公布号 CN 115345262 A (43)申请公布日 2022.11.15 (73)专利权人 南京工业大 学 地址 211899 江苏省南京市江北新区浦珠 南路30号 专利权人 绍兴兰红智能科技有限公司 (72)发明人 徐嘉昊 张帆  (74)专利代理 机构 南京科阔知识产权代理事务 所(普通合伙) 3240 0 专利代理师 苏兴建 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/08(2006.01) G10L 15/16(2006.01) G10L 25/30(2013.01) G10L 25/63(2013.01) (56)对比文件 CN 111429948 A,2020.07.17 CN 114692621 A,202 2.07.01CN 114359665 A,2022.04.15 CN 110851491 A,2020.02.28 CN 114358014 A,202 2.04.15 US 78490 32 B1,2010.12.07 CN 112905891 A,2021.0 6.04 US 2006253418 A1,20 06.11.09 徐鸣珂等.Head Fusi on:一种提高语音情绪 识别的准确性和鲁棒 性的方法. 《计算机科 学》 .2022,第49卷(第7期), 任颖等.卷积神经网络 CNN算法在文本分类 上的应用研究. 《现代计算机(专业版)》 .2010, (第3期), 王琴.数据 挖掘在银行电话营销中的应用. 《中国优秀硕士学位 论文全文数据库》 .2017, Feng Shen 等.A novel ensemble classificati on model based o n neural networks and a clas sifier optimisati on technique for imbalanced credit risk evaluati on. 《Physica A: Statistical Mechanics and its Ap plications》 .2019,第 526卷 (续) 审查员 刘利 (54)发明名称 基于影响分数的神经网络模型关键数据挖 掘方法 (57)摘要 一种基于影响分数的神经网络模型关键数 据挖掘方法, 通过神经网络模型的训练数据和测 试数据求出对应的关键数据, 步骤包括: 步骤1) 取待提取样本数据集, 进行数据预处理, 获得预 处理数据集; 步骤2) 采用神经网络模型, 设置多 个检查点, 分别跟踪记录训练过程每一次迭代的 结果; 步骤3) 计算每个训练数据的影响分数后排 序, 选择影响分数排名最大的关键数据。 本关键 数据挖掘方法适用于基于神经网络模型的图像 分类模型、 文本分类模型或语音情绪识别模型。本方法可解决模型决策系统不透明的问题, 在提 升准确率和速度的基础上, 优化数据质量以及提 升模型收敛速度。 [转续页] 权利要求书2页 说明书6页 附图6页 CN 115345262 B 2022.12.27 CN 115345262 B (56)对比文件 候小培等.卷积神经网络 CNN算法在文本分 类上的应用研究. 《微计算机信息》 .2019, Yun Qin等.On Sample Based Explanati on Methods for Sequence-to Sequence Applications. 《2022 7th Internati onal Conference o n Computati onal Intelligence and Applications(ICCIA)》 .202 2,2/2 页 2[接上页] CN 115345262 B1.一种基于影响分数的神经网络模型关键数据挖掘方法, 通过神经网络模型的训练数 据和测试数据求出对应的关键数据, 神经网络模 型是NLP的语音情绪识别模型, 其特征是包 括以下步骤: 步骤1) 对待提取音频样本数据集, 进行 数据预处 理, 获得预处理数据集; 步骤2) 在语音情绪识别模型的训练过程中, 设置多个检查点, 分别跟踪记录训练过程 每一次迭代的结果; 步骤3) 通过计算每 个训练数据的影响分数, 挖掘关键数据, 步骤 包括: 步骤301) 把步骤1) 预处 理后的数据集分为训练数据和 测试数据; 步骤302) 训练数据的表示序列 Dtrain=[z1,z2,…,zm], 测试数据的表示序列 Dtest=[z’1, z’2,…,z’n]; 步骤303) 训练实例 z对测试实例 z’的影响定义为: 每当使用训练实例 z时由训练过程引 起的测试实例 z’上的损失的总减少; 计算第i个训练实例 zi对测试实例 z’的影响Vi, 即从第t次迭代更新到第 t+1次迭代时, 测试实例的损失减少 Vi=l(wt, z’)‑ l(wt+1, z’);w表示迭代过程, wt表示的第 t次迭代,l (*)表示实例的损失; 步骤304) 设置每次完整的训练为 一个检查点; 计算每个检查点下, 所有训练实例对所有测试实例的影响矩阵 Influ(Dtrain, Dtest); 获取影响矩阵中一个训练实例对每个测试实例的影响并相加, 得到该训练实例的影响 分数Si, 表示为Si=Σn j=0V(zi, z’j|Dtest); 步骤305) 按照步骤304) 的方法计算所有训练实例的影响分数, 将所有影响分数进行排 序, 表示为InfSort(zi| Dtrain)= Sort(S1,S2,…,Sn); 步骤306) 在步骤305) 的排序中, 分别取排名前列的影响分数对应的训练实例作 为关键 数据, 重新输入语音情绪识别模型; 步骤1) 中, 对数据集进行 预处理的步骤 包括: 步骤101) 使用交互式情绪二元运动捕捉数据库IEMOCAP, 获取语音片段作为独立的音 频训练样本; 步骤102) 设置采样率16 000, 使用librosa提取音频样本的特 征; 步骤103) 对步骤102) 提取的特征进行分割, 分割为时长5秒的片段, 不足5秒的进行补 零操作, 使时长达到5秒, 相 邻片段之 间具有2秒的重叠, 每个片段和原样 本是相同的情绪标 签。 2.根据权利要求1所述的基于影响分数的神经网络模型关键数据挖掘方法, 其特征是 步骤2) 中的语音情绪识别模型 是CNN模型。 3.根据权利要求1所述的基于影响分数的神经网络模型关键数据挖掘方法, 其特征是 步骤301) 中, 使用5折交叉验证, 将步骤1) 预 处理后的数据集平均分为5个部分, 每次取其中 四份组成训练数据, 剩下一份作为测试数据, 做五次实验取平均值作为结果, 最终把数据集 分为80%的训练数据 Dtrain和20%的测试 数据Dtest; 步骤302) 中, 其中n=m/4; 步骤303) 中, 迭代为: 使用一个Batch数据对神经网络模型进行一次参数更新的过程; 设置Batc h为1, 即每次获得一个训练实例对测试实例的影响;权 利 要 求 书 1/2 页 2 CN 115345262 B 3

.PDF文档 专利 基于影响分数的神经网络模型关键数据挖掘方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于影响分数的神经网络模型关键数据挖掘方法 第 1 页 专利 基于影响分数的神经网络模型关键数据挖掘方法 第 2 页 专利 基于影响分数的神经网络模型关键数据挖掘方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:43:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。