专利一种基于注意力机制的针对信息抽取任务的数据增强方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221018584 4.2 (22)申请日 2022.02.28 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人高镇　朱旭　江海　王化　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师程毓英 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) (54)发明名称一种基于注意力机制的针对信息抽取任务的数据增强方法 (57)摘要本发明涉及一种基于注意力机制的针对信息抽取任务的数据增强方法，包括以下步骤：将信息抽取数据集文本标注为关系分类数据集，每条信息抽取数据包含文本和三元组两部分，三元组由主体、客体和关系组成，将三元组中的关系作为文本的标签，构成一条关系分类数据；将标注完成的关系分类数据集在基于BERT的文本分类模型训练；将待增强文本输入训练完成的分类模型进行分类预测，待分类文本被切分成由若干个字或单词组成的序列；将针对每个字或单词的多头注意分数进行叠加，得到每个字或单词的注意力分数，将字或单词按照注意力分数进行排序，排序靠后的字或单词按照进行随机删除，产生增强文本，增强文本与原三元组共同构成一条信息抽取数据。权利要求书1页说明书5页附图1页 CN 114564583 A 2022.05.31 CN 114564583 A 1.一种基于注意力机制的针对信息抽取任务的数据增强方法，包括以下步骤：第一步，将信息抽取数据集文本标注为关系分类数据集，每条信息抽取数据包含文本和三元组两部分，三元组由主体、客体和关系组成，将三元组中的关系作为文本的标签，构成一条关系分类数据；第二步，将标注完成的关系分类数据集在基于BERT的文本分类模型训练，训练过程如下： (1)待分类文本先进行预处理，预处理过程中若文本为中文，则切分成单个字组成的序列，若为英文，则按空格切分成英文单词组成的序列；所述的序列经过BERT编码器，获取 BERT倒数第一层编码器的多头注意力分数和倒数第二层编码器的输出隐藏状态，二者做矩阵相乘得到多个中间隐藏状态，其中， BERT编码器由残差网络、多头注意力机制和全连接层网络组成，多头注意力分数由自注意力机制的查询矩阵和关键字矩阵相乘得到的； (2)将得到的多个中间隐藏状态经过多头选择器选择获得固定数量的隐藏状态；其中多头选择器由两层的多层感知机构成，输出结果为文本分类概率，将输出结果中文本分类概率最大的中间隐藏状态选出； (3)若干个多头选择器选出若干个中间隐藏状态，将选出的中间隐藏状态进行向量拼接，然后经过分类器得到文本分类结果，分类结果与标签对比，完成模型的训练；第三步，将待增强文本输入训练完成的分类模型进行分类预测，待分类文本被切分成由若干个字或单词组成的序列，分类预测该过程中，将BERT倒数第一层编码器的多个注意力分数和倒数第二层编码器的输出隐藏状态取出，利用所述的多头选择器，选择出若干个注意力分数，此分数为针对每个字或单词的多头注意分数；将针对每个字或单词的多头注意分数进行叠加，得到每个字或单词的注意力分数，将字或单词按照注意力分数进行排序，排序靠后的字或单词按照比例进行随机删除，产生增强文本，增强文本与原三元组共同构成一条信息抽取数据。权　利　要　求　书 1/1 页 2 CN 114564583 A 2一种基于注意力机制的针对信息抽取任务的数据增强方法技术领域 [0001]本发明涉及自然语言处理技术领域，尤其涉及一种基于注意力机制的针对信息抽取任务的数据增强方法。背景技术 [0002]关系抽取作为信息抽取的一个子任务，是在给定非结构化或半结构化文本情况下，通过一定技术方法来自动的识别实体以及实体之间的关系。近年来，随着深度学习的繁荣，在自然语言处理领域都取得了巨大的成功。通常，训练数据的数量和质量对于深度学习模型的泛化性能具有重要意义。然而，准备一个大规模的标记数据集是一个费时费力的工作。因此，通过数据增强获得高质量标记数据变得尤为重要。 [0003]数据增强旨在通过转换生成现有数据的变体来创建额外的数据。它在深度生成模式等计算机视觉中得到了成功的应用，然而，数据增强被广泛认为是一个难以应用于自然语言处理的方法，原因是文本的抗干扰能力较差，因为对文本的小干扰可能会完全改变意义。同义词替换(SR)可能是其中最简单和直观的方法之一，通过随机替换其中一个同义词来增加文本。然而，单词的同义词数量非常有限的， SR不能产生各种数据，需要额外的语言知识，上下文增强(CA)用语言模型(LM)根据上下文预测的其它单词替换单词。但是，为了实现CA，需要一个标签条件架构非常大的语料库对LM进行预训练。 [0004]总的来说，信息抽取数据增强领域面临的挑战主要有以下两个方面： [0005]1、如何在保证文本和标签一致性的基础上改变文本； [0006]2、如何解决在低量标注数据和缺少语料库的情况进行数据增强的问题；发明内容 [0007]针对现有数据增强方法存在的缺陷，本文提供了一种基于注意力机制的针对信息抽取任务的数据增强方法。借助多头注意力和头选择器可以从文本中提取重要信息，以避免信息冗余。借助注意力分数可以检测单词对相应文本的重要性，并选择性地提取重要的单词，以生成新的数据，而不改变文本的句意。借助BERT 预训练模型可以在低量标注数据的情况下训练数据增强所需要的文分类模型。技术方案如下： [0008]一种基于注意力机制的针对信息抽取任务的数据增强方法，包括以下步骤： [0009]第一步，将信息抽取数据集文本标注为关系分类数据集，每条信息抽取数据包含文本和三元组两部分，三元组由主体、客体和关系组成，将三元组中的关系作为文本的标签，构成一条关系分类数据； [0010]第二步，将标注完成的关系分类数据集在基于BERT的文本分类模型训练，训练过程如下： [0011](1)待分类文本先进行预处理，预处理过程中若文本为中文，则切分成单个字组成的序列，若为英文，则按空格切分成英文单词组成的序列；所述的序列经过BERT编码器，获取BERT倒数第一层编码器的多头注意力分数和倒数第二层编码器的输出隐藏状态，二者做说　明　书 1/5 页 3 CN 114564583 A 3

专利 一种基于注意力机制的针对信息抽取任务的数据增强方法

专利一种基于注意力机制的针对信息抽取任务的数据增强方法