全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210920360.8 (22)申请日 2022.08.02 (71)申请人 淮阴工学院 地址 223003 江苏省淮安市经济技 术开发 区枚乘东路1号 (72)发明人 高尚兵 张骏强 苏睿 王媛媛  张海艳 马甲林 张正伟 朱全银  蔡利荣  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 柏尚春 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01)G06F 40/284(2020.01) (54)发明名称 基于混合样本空间的不平衡化工文本数据 增强方法及装置 (57)摘要 本发明公开一种基于混合样本空间的不平 衡化工文本数据增强方法及装置, 首先按预设规 则从语料集中获得两个一级标签不同的化工文 本样本, 将 两个样本依次输入动态词向量编码器 中, 获得文本样本对输出动态词向量; 将两个样 本根据预设静态词向量生成模型依次获得对应 的静态词向量, 然后对上述词向量分别展开样本 自插值混合; 然后随机选择与文本样本位于同一 大类样本空间下属不同小样本类别空间中的文 本样本生成的词向量与自插值得到的词向量展 开层次样 本空间插值, 输出获得数据增强后的词 向量, 应用于下游分类任务中。 本发明利用多标 签数据同一层级类别之间样本的依赖关系, 降低 小样本所属类别分类难度, 进而有效提升不平衡 样本数据分类精度。 权利要求书2页 说明书4页 附图2页 CN 115455177 A 2022.12.09 CN 115455177 A 1.一种基于混合样本空间的不平衡化工文本数据增强方法, 其特征在于, 包括以下步 骤: (1)输入不平衡化工产品语料集, 对语料集中的化工产品文本样本进行数据清洗以及 预处理; (2)统计不平衡化工产品语料集中各类别文本样本的频率, 计算实际状态下每类一级 标签文本样本在总语料集中的占比; 计算数据均匀分布时一级标签下每类文本样本在总语 料集中的占比; (3)从化工产品语 料集中获得不同类别样本空间下的化工文本样本对(X1,Y1), (X2,Y2), 预设Y1标签所属样本标签大类别为主样本空间m, 其余样本所属类别样本空间为副样本空 间n; 将获得的化工文本样 本对分别输入动态词向量编 码器中, 获得文本样 本对输出动态词 向量WD1和WD2; 将获得的化工文本样本对输入静态词向量生成模型获得对应的静态词向量 WS1和WS2; (4)对化工文本样本对生成的动态词向量WD1和WD2与静态词向量WS1和WS2分别展开self ‑ mixup样本自插值混合, 获得插值混合后的词向量 W1和W2及其对应的标签Y1和Y2; (5)随机在主样本空间m中选择与文本样本(X1,Y1)位于同一大类别样本空间下属 不同 小样本类别空间中的文本样本(X3,Y3), 并对X3应用不同于文本样本X1的静态词向量生成算 法生成静态词向量W3及其对应的标签Y3, 对步骤(3)生成的(W1,Y1), (W2,Y2)以及(W3,Y3)展开 层次样本空间插值, 输出获得原始化工文本样本数据增强后的词向量 及其对应的标签 2.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法, 其特征 在于, 步骤(3)所述动态词向量编码 器为ELMo、 GPT、 BERT模 型或者分别基于上述三种模 型衍 生的动态词向量 算法模型。 3.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法, 其特征 在于, 步骤(3)所述静态词向量 生成模型为 Word2Vec、 Glove或FastText模型。 4.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法, 其特征 在于, 所述 步骤(4)实现过程如下: W1= μ1WD1+(1‑μ1)WS1 W2= μ2WD2+(1‑μ2)WS2 其中, μ1和 μ2表示从β 分布获得的插值混合超参数。 5.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法, 其特征 在于, 步骤(5)所述层次样本空间插值公式为: 其中, m和n分别表示主样本空间以及副样本空间, i和j表示主样本空间下属不同子样 本空间, 即一级标签相同, 二级 标签不相同的文本样 本, λ表示 从β 分布获得的插值混合超参 数, QA表示样本均衡时, 各个一级标签样本在总样本数 中所占比例, Q2表示样本(X2,Y2)所属权 利 要 求 书 1/2 页 2 CN 115455177 A 2一级标签在总样本数中的占比, 表示不平衡系数。 6.一种基于混合样本空间的不平衡化工文本数据增强装置, 包括存储器、 处理器及存 储在存储器上并可在处理器上运行 的计算机程序, 其特征在于, 所述计算机程序被加载至 处理器时实现根据权利要求 1‑5任一项所述的基于 混合样本空间的不平衡化工文本数据增 强方法。权 利 要 求 书 2/2 页 3 CN 115455177 A 3

PDF文档 专利 基于混合样本空间的不平衡化工文本数据增强方法及装置

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于混合样本空间的不平衡化工文本数据增强方法及装置 第 1 页 专利 基于混合样本空间的不平衡化工文本数据增强方法及装置 第 2 页 专利 基于混合样本空间的不平衡化工文本数据增强方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。