专利一种基于自引导进化策略的自动化数据增强方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111269501.6 (22)申请日 2021.10.2 9 (71)申请人南京大学地址 210093 江苏省南京市鼓楼区汉口路 22号 (72)发明人朱光辉　黄宜华　陈文忠　袁春风　 (74)专利代理机构苏州威世朋知识产权代理事务所(普通合伙) 32235 代理人潘晓 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于自引导进化策略的自动化数据增强方法 (57)摘要本发明公开了一种基于自引导进化策略的自动化数据增强方法，首先将自动化数据增强问题建模为数据增强策略的最优化搜索问题，然后定义并设计策略向量与数据增强策略的映射转换关系，最后利用自引导进化策略迭代搜索出最优的数据增强策略。本发明相比于以前方法，能够取得更好的深度学习模型预测性能。本发明不仅支持图片数据的数据增强任务，而且支持了音频和文本等媒体数据的数据增强任务。权利要求书2页说明书7页附图2页 CN 113988309 A 2022.01.28 CN 113988309 A 1.一种基于自引导进化策略的自动化数据增强方法，包括以下步骤： (1)针对原始数据集类型，设计多种数据增强操作，对所述数据增强操作进行封装，所有数据增强操作构成了算法的搜索空间； (2)定义并设计策略向量与数据增强策略的映射转换关系，所述数据增强策略由多个数据增强操作组成； (3)计算预热阶段所有搜索方向上的策略评估值：在整个搜索空间中对当前探索点附近采样多个搜索方向，使用所述映射转换关系对多个搜索方向上的策略向量值进行转换，对转换后得到的数据增强策略进行评估； (4)收集所有搜索方向上的数据增强策略评估值：收集完所有评估值后，对各个评估值进行降序排序，并保留前b个评估值用于计算估计梯度； (5)更新策略向量：使用所述估计梯度来更新策略向量； (6)重复迭代搜索直至预热阶段结束：重复所述步骤(3)至步骤(5)，直至搜索次数达到 Twarmup，结束预热阶段的搜索； (7)生成梯度子空间：将每次迭代所计算的估计梯度进行保存，使用最近k次保存的估计梯度构建梯度矩阵，对梯度矩阵进行分解得到梯度子空间和正交补空间； (8)计算自引导阶段所有搜索方向上的策略评估值：在整个搜索空间中对当前探索点附近进行采样多个搜索方向，采样方式为以α 的概率根据梯度子空间的引导和以1 ‑α 的概率根据正交补空间的引导来进行采样，然后重复所述步骤(3)至步骤(5)； (9)计算自适应采样概率值：使用从所述梯度子空间和所述正交补空间采样得到的搜索方向所反馈的平均评估值来更新自适应采样概率值α； (10)计算更新周期时的策略评估值：当迭代次数为更新次数Tupdate的整数倍时，对当前数据增强策略进行评估和保存； (11)重复迭代搜索直至自适应阶段结束：重复所述步骤(7)至步骤(10)，直至搜索次数达到指定值，选择步骤(10)中存储的评估值最高的多个数据增强策略集合作为方法的最终输出，并使用所述输出的数据增强策略集合对所述原始数据集进行数据增强，从而实现自动化数据增强。 2.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法，其特征在于：所述步骤(1)中，所述原始数据集包括图片、音频和文本数据集，不同数据集对应的数据增强函数的作用、数量和参数范围均不同。 3.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法，其特征在于：所述步骤(2)中，策略向量是搜索空间中解的形式化表现方式，而数据增强策略能够直接被应用到数据集的增强工作并进行评估，所述映射转换关系是对策略向量进行转换得到相应的数据增强策略。 4.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法，其特征在于：所述步骤(3)中，在搜索空间中的探索点进行多个方向上的扰动探索，所述探索方向的采样方式为在探索点附近的多元标准高斯分布中选取多个邻近点作为探索方向；对所述多个搜索方向使用所述映射转换关系转换成为相应的数据增强策略，并对这些数据增强策略进行价值评估，所述价值评估采取固定架构子模型在增强的训练数据集上进行训练，而后采用在验证数据集上的模型预测精度作为评估值。权　利　要　求　书 1/2 页 2 CN 113988309 A 25.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法，其特征在于：所述步骤(4)中，收集所有探索方向上的数据增强策略的评估值，对得到的所有评估值进行降序并保留前b个数据增强策略以及相应的评估值。 6.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法，其特征在于：所述步骤(6)中，对于所述梯度矩阵，使用QR分解法进行分解， QR分解法将所述梯度矩阵分解得到一个正交矩阵，所述正交矩阵构成所述梯度子空间，根据所述梯度子空间求解得到一个正交补空间。 7.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法，其特征在于：所述步骤(8)中，在搜索空间中的探索点进行多个方向上的扰动探索，所述探索方向的采样方式为在探索点附近以概率α 从协方差矩阵为所述梯度子空间中所获取的多元高斯分布中选取多个邻近点作为搜索方向，以概率1 ‑α 从协方差矩阵为所述正交补空间中所获取的多元高斯分布中选取多个邻近点作为搜索方向。 8.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法，其特征在于：所述步骤(9)中，自适应采样概率值α 的调整方式为分别观察从所述梯度子空间和所述正交补空间的采样得到的搜索方向所反馈的平均评估值，然后比较该两种平均评估值的大小进行相应的调整。 9.根据权利要求1所述一种基于自引导进化策略的自动化数据增强方法，其特征在于：所述步骤(10)中，当迭代次数为更新次数Tupdate的整数倍时，计算此次迭代中数据增强策略的平均评估值，记录存储所述数据增强策略和数据增强策略的平均评估值。权　利　要　求　书 2/2 页 3 CN 113988309 A 3

专利 一种基于自引导进化策略的自动化数据增强方法

专利一种基于自引导进化策略的自动化数据增强方法