专利一种基于重复跨度预测的机器阅读理解方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111335948.9 (22)申请日 2021.11.12 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人史树敏　徐园　黄河燕　 (74)专利代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人王松 (51)Int.Cl. G06F 40/35(2020.01) G06N 20/00(2019.01) (54)发明名称一种基于重复跨度预测的机器阅读理解方法 (57)摘要本发明涉及一种基于重复跨度预测的机器阅读理解方法，属于自然语言处理机器阅读理解领域。所述方法包括：针对跨度预测形式的阅读理解任务，增加预测重复跨度的任务。该任务首先在文本段落中基于贪心算法找到所有的重复跨度，然后对包含在长跨度中的短跨度进行过滤，得到重复跨度集合之后，对每组重复的跨度，随机选择一个作为答案跨度，组内其他跨度用掩码代替。将处理过的文本输入到预训练模型中，得到表示向量，基于softmax预测掩码位置应该指向段落中的哪个跨度。在该任务上训练之后，将得到的模型在目标任务上做进一步的微调。该方法考虑到预训练模型欠缺跨度知识的问题，并利用无监督的方式构建数据，使模型可以更好地学习跨度表示，提升模型在跨度预测方面的表现。权利要求书1页说明书4页附图1页 CN 114154515 A 2022.03.08 CN 114154515 A 1.一种基于预测重复跨度的多阶段阅读理解方法，其特征在于，包括以下步骤：步骤1：对篇章序列p做预处理，找到p中所有的重复跨度；其中，篇章序列p表达式为： {p＝w1,w2,...,wN}，表示阅读理解中的篇章，该篇章中有N 个单词w1,w2,...,wN，下标N为序列长度， w代表单词；步骤2：按跨度的长度进行排序，对于索引有重合的跨度做筛选，保留重合跨度中长度最长的跨度；步骤3：将过滤后的跨度集合打乱，对每组重复跨度的列表，随机选取一个跨度(sj,ej) 不做任何改变，同组的其它重复跨度分别用掩码[QUESTION]代替，最终每组重复跨度形成了n‑1条训练数据， n表示重复跨度的个数；步骤4：对文本序列进行编码；对掩码后的篇章序列p，将其词向量编码、位置编码和段编码相加输入到预训练模型 bert中， bert对每个[QUESTION]位置预测出其对应的跨度(sj,ej)位置，预测方式如下：其中， Ps表示跨度开始位置的概率分布， Pe表示跨度结束位置的概率分布； U表示文本序列输入到模型后得到的融合上下文信息的向量表示；表示计算跨度开始索引的权重矩阵；表示计算跨度结束索引的权重矩阵； T表示矩阵转置；将向量表示和对应的权重矩阵相乘后做softmax运算，得到序列每个位置上的开始和结束的概率；步骤5：使用得到的模型初始化参数，然后对目标任务数据集做数据预处理，将篇章序列p、问题序列q拼接；在序列最后添加[QUESTION]掩码标记；其中，问题序列 q表达式为： { q＝w1,w2,...,wM}，表示篇章对应的问题，该问题有M个单词w1,w2,...,wM，下标M为序列长度， w代表单词；步骤6：将步骤5拼接好的序列输入到模型中，得到序列的向量表示，使用和步骤4相同的方法，计算答案跨度的开始和结束位置，使用交叉熵作为损失函数，使用梯度下降的方式更新模型参数，得到模型推理得到的答案。 2.如权利要求所述的一种基于预测重复跨度的多阶段阅读理解方法，其特征在于，步骤1中，使用贪心算法找到篇章序列p中所有的重复跨度，并存放在列表span_cluster中，其表达式为： span_cluster[i]＝{(s1,e1),…,(sn,en)}，其中，每一项(sx,ex)表示第i组重复的跨度在篇章中的开始位置和结束位置。权　利　要　求　书 1/1 页 2 CN 114154515 A 2一种基于重复跨度预测的机器阅读理解方法技术领域 [0001]本发明涉及一种多阶段的机器阅读理解方法，具体涉及一种结合重复跨度预测任务的预训练方法，属于自然语言处理机器阅读理解技术领域。背景技术 [0002]近年来，随着深度学习技术的发展，尤其是预训练模型的提出，机器阅读理解技术取得了明显的进步，被广泛应用于文本问答、信息抽取和搜索引擎等多个方面。 [0003]机器阅读理解，按照任务形式可以分为完形填空、多项选择、跨度预测和自由问答四种类型。其中，跨度预测是在给定上下文和问题的前提下，模型从上下文中抽取一段文本作为答案，这要求模型能够深入理解文本内容并做出推理。和完形填空及多项选择任务相比，跨度预测对模型的要求更高，更能衡量模型对文本的理解程度。 [0004]随着预训练技术的发展和相关数据集的发布，基于跨度预测的阅读理解技术得到了迅速的发展。预训练 ‑微调的训练模式成为一种广泛应用的范式，模型在预训练阶段，通过自监督的方式学习到丰富的语义知识，在微调阶段向目标任务的数据分布靠近，从而使模型在目标任务上取得更好的效果。目前，在多个基于跨度的阅读理解数据集上，神经网络模型通过该模式已经取得了超过人类的分数。 [0005]尽管预训练技术大大提高了模型的性能，但对于具体任务而言，要求模型微调阶段必须有一定数量的带标签的数据集，否则容易造成过拟合等问题。由于带标签的数据集构造非常耗费人力与时间，目前出现了一些针对小规模数据集的工作，比如小样本学习、半监督学习等。这些方法从模型上进行改进，在少量数据上取得了不错的效果。 [0006]尽管如此，对跨度预测的阅读理解任务而言，这些工作并没有从跨度预测的本质出发，针对跨度这个语义单位做进一步的挖掘，导致模型面对小规模数据集无法学到充足的跨度知识，因此，现有技术在解决小规模阅读理解任务上效果不佳。发明内容 [0007]本发明的目的是针对现有技术未能对阅读理解中的跨度做进一步的学习，导致在解决小规模数据集上效果不佳的缺陷，为了能充分利用文本中的跨度知识解决阅读理解中样本少的难题，创造性地提出了一种基于重复跨度预测的机器阅读理解方法。 [0008]本方法的创新点在于：在预训练和目标任务微调的中间，增加了重复跨度预测的任务，以无监督的方式构造数据，让模型学习到跨度边界和跨度之间的语义关系，从而在小样本的跨度预测场景下也能取得很好的效果。 [0009]本发明采用以下技术方案实现。 [0010]首先，对有关概念进行说明： [0011]定义1：篇章序列p [0012]其表达式为： {p＝w1,w2,...,wN}，表示阅读理解中的篇章，该篇章中有N个单词w1, w2,...,wN，下标N为序列长度， w代表单词。说　明　书 1/4 页 3 CN 114154515 A 3

专利 一种基于重复跨度预测的机器阅读理解方法

专利一种基于重复跨度预测的机器阅读理解方法