全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221018584 4.2 (22)申请日 2022.02.28 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 (72)发明人 高镇 朱旭 江海 王化  (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 程毓英 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) (54)发明名称 一种基于注意力机制的针对信息抽取任务 的数据增强方法 (57)摘要 本发明涉及一种基于注意力机制的针对信 息抽取任务的数据增强方法, 包括以下步骤: 将 信息抽取数据集文本标注为关系分类数据集, 每 条信息抽取数据包含文本和三元 组两部分, 三元 组由主体、 客体和关系组成, 将三元组中的关系 作为文本的标签, 构成一条关系分类数据; 将标 注完成的关系分类数据集在基于BERT的文本分 类模型训练; 将待增强文本输入训练完成的分类 模型进行分类预测, 待分类文本被切分成由若干 个字或单词组成的序列; 将针对每个字或单词的 多头注意分数进行叠加, 得到每个字或单词的注 意力分数, 将字或单词按照注意力分数进行排 序, 排序靠后的字或单词按照进行随机删除, 产 生增强文本, 增强文本与原三元 组共同构成一条 信息抽取 数据。 权利要求书1页 说明书5页 附图1页 CN 114564583 A 2022.05.31 CN 114564583 A 1.一种基于注意力机制的针对信息抽取任务的数据增强方法, 包括以下步骤: 第一步, 将信息抽取数据集文本标注为关系分类数据集, 每条信息抽取数据包含文本 和三元组两部分, 三元组由主体、 客体和关系组成, 将三元组中的关系作为文本的标签, 构 成一条关系分类数据; 第二步, 将标注完成的关系分类数据集在基于BERT的文本分类模型训练, 训练过程如 下: (1)待分类文本先进行预处理, 预处理过程中若文本为中文, 则切分成单个字组成的序 列, 若为英文, 则按空格切分成英文单词组成的序列; 所述的序列经过BERT编码器, 获取 BERT倒数第一层编码 器的多头注意力分数和 倒数第二层编 码器的输出隐藏状态, 二者做矩 阵相乘得到多个中间隐藏状态, 其中, BERT编码 器由残差网络、 多头注 意力机制和全连接层 网络组成, 多头注意力分数由自注意力机制的查询矩阵和关键 字矩阵相乘得到的; (2)将得到的多个中间隐藏状态经过多头选择器选择获得固定数量的隐藏状态; 其中 多头选择器由两层的多层感知机构成, 输出结果为文本分类概率, 将输出结果中文本分类 概率最大的中间隐藏状态选出; (3)若干个多头选择器选出若干个中间隐藏状态, 将选出的中间隐藏状态进行向量拼 接, 然后经 过分类器得到文本分类结果, 分类结果与标签对比, 完成模型的训练; 第三步, 将待增强文本输入训练完成的分类模型进行分类预测, 待分类文本被切分成 由若干个字或单词组成的序列, 分类预测该过程中, 将BERT倒数第一层编码器的多个注意 力分数和倒数第二层编码器的输出隐藏状态取出, 利用所述的多头选择器, 选择出若干个 注意力分数, 此分数为针对每 个字或单词的多头注意分数; 将针对每个字或单词的多头注意分数进行叠加, 得到每个字或单词的注意力分数, 将 字或单词按照注意力 分数进行排序, 排序靠后的字或单词按照比例进行随机删除, 产生增 强文本, 增强文本与原三元组共同构成一条信息抽取 数据。权 利 要 求 书 1/1 页 2 CN 114564583 A 2一种基于注意力机制的针对信息抽取任务的数据增强方 法 技术领域 [0001]本发明涉及自然语言处理技术领域, 尤其涉及一种基于注意力机制的针对信息抽 取任务的数据增强方法。 背景技术 [0002]关系抽取作为信息抽取的一个子任务, 是在给定非结构化或半结构化文本情况 下, 通过一定技术方法来自动的识别实体以及实体之间的关系。 近年来, 随着深度学习的繁 荣, 在自然语言处理领域 都取得了巨大的成功。 通常, 训练数据的数量和质量对于深度学习 模型的泛化性能具有重要意义。 然而, 准备一个大规模的标记数据集是一个费时费力的工 作。 因此, 通过 数据增强 获得高质量标记数据变得 尤为重要。 [0003]数据增强旨在通过转换生成现有数据的变体来创建额外的数据。 它在深度生成模 式等计算机视觉中得到了成功的应用, 然而, 数据增强被广泛认为是一个难以应用于自然 语言处理的方法, 原因是文本的抗干扰能力较差, 因为对文本的小干扰可能会完全 改变意 义。 同义词 替换(SR)可能是其中最简单和直观的方法之一, 通过随机替换其中一个同义词 来增加文本。 然而, 单词的同义词数量非常有限的, SR不能产生各种数据, 需要额外的语言 知识, 上下文增强(CA)用语 言模型(LM)根据上下文预测的其它单词替换单词。 但是, 为了实 现CA, 需要一个标签条件架构非常大的语料库对LM进行 预训练。 [0004]总的来说, 信息抽取 数据增强领域 面临的挑战主 要有以下两个方面: [0005]1、 如何在保证文本和标签一 致性的基础上改变文本; [0006]2、 如何解决在低量标注数据和缺少语料库的情况进行 数据增强的问题; 发明内容 [0007]针对现有数据增强方法存在的缺陷, 本文提供了一种基于注意力机制的针对信息 抽取任务的数据增强方法。 借助多头注意力和头选择器可以从文本中提取重要信息, 以避 免信息冗余。 借助注意力 分数可以检测单词对相应文本的重要性, 并选择性地提取重要的 单词, 以生成新的数据, 而不改变文本的句意。 借助BERT 预训练模型可以在低量标注数据的 情况下训练数据增强所需要的文分类模型。 技 术方案如下: [0008]一种基于注意力机制的针对信息抽取任务的数据增强方法, 包括以下步骤: [0009]第一步, 将信息抽 取数据集文本标注为关系分类数据集, 每条信息抽 取数据包含 文本和三元组两部分, 三元组由主体、 客体和关系组成, 将三元组中的关系作为文本的标 签, 构成一条关系分类数据; [0010]第二步, 将标注完成的关系 分类数据集在基于BERT的文本分类模型训练, 训练过 程如下: [0011](1)待分类文本先进行预处理, 预处理过程中若文本为中文, 则切分成单个字组成 的序列, 若为英文, 则按空格切分成英文单词组成的序列; 所述的序列经过BERT编码器, 获 取BERT倒数第一层编 码器的多头注意力分数和 倒数第二层编码 器的输出隐藏状态, 二者做说 明 书 1/5 页 3 CN 114564583 A 3

.PDF文档 专利 一种基于注意力机制的针对信息抽取任务的数据增强方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于注意力机制的针对信息抽取任务的数据增强方法 第 1 页 专利 一种基于注意力机制的针对信息抽取任务的数据增强方法 第 2 页 专利 一种基于注意力机制的针对信息抽取任务的数据增强方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。