(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111335948.9
(22)申请日 2021.11.12
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 史树敏 徐园 黄河燕
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
代理人 王松
(51)Int.Cl.
G06F 40/35(2020.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于重复跨度预测的机器阅读理解方
法
(57)摘要
本发明涉及一种基于重复跨度预测的机器
阅读理解方法, 属于自然语言处理机器阅读理解
领域。 所述方法包括: 针对跨度预测形式的阅读
理解任务, 增加预测重复跨度的任务。 该任务首
先在文本段落中基于贪心算法找到所有的重复
跨度, 然后对包含在长跨度中的短跨度进行过
滤, 得到重复跨度集合之后, 对每组重复的跨度,
随机选择一个作为答案跨度, 组 内其他跨度用掩
码代替。 将处理过的文本输入到预训练模型中,
得到表示向量, 基于softmax预测掩码位置应该
指向段落中的哪个跨度。 在该任务上训练之后,
将得到的模 型在目标任务上做进一步的微调。 该
方法考虑到预训练模型欠缺跨度知识的问题, 并
利用无监督的方式构建数据, 使模 型可以更好地
学习跨度表示, 提升模型在跨度预测方面的表
现。
权利要求书1页 说明书4页 附图1页
CN 114154515 A
2022.03.08
CN 114154515 A
1.一种基于预测重复跨度的多阶段阅读理解方法, 其特 征在于, 包括以下步骤:
步骤1: 对篇 章序列p做预处 理, 找到p中所有的重复跨度;
其中, 篇章序列p表达式为: {p=w1,w2,...,wN}, 表示阅读理解中的篇章, 该篇章中有N
个单词w1,w2,...,wN, 下标N为序列长度, w代 表单词;
步骤2: 按跨度的长度进行排序, 对于索引有重合的跨度做筛选, 保留重合跨度中长度
最长的跨度;
步骤3: 将过滤后的跨度集合打乱, 对每组重复跨度的列表, 随机选取一个跨度(sj,ej)
不做任何改变, 同组的其它重复跨度分别用掩码[QUESTION]代替, 最终每组重复跨度形成
了n‑1条训练数据, n表示重复跨度的个数;
步骤4: 对文本序列进行编码;
对掩码后的篇章序列p, 将其词向量编码、 位置编码和段编码相加输入到预训练模型
bert中, bert对每个[QUESTION]位置预测出其对应的跨度(sj,ej)位置, 预测方式如下:
其中, Ps表示跨度开始位置的概率分布, Pe表示跨度结束位置的概率分布; U表示文本序
列输入到模型后得到的融合上下文信息的向量表示;
表示计算跨度开始索引的权重矩
阵;
表示计算 跨度结束索引的权 重矩阵; T表示矩阵转置;
将向量表示和对应的权重矩阵相乘后做softmax运算, 得到序列每个位置上的开始和
结束的概 率;
步骤5: 使用得到的模型初始化参数, 然后对目标任务数据集做数据预处理, 将篇章序
列p、 问题序列q拼接; 在序列最后添加[QUESTION]掩码标记;
其中, 问题序列 q表达式为: { q=w1,w2,...,wM}, 表示篇章对应的问题, 该问题有M个单
词w1,w2,...,wM, 下标M为序列长度, w代 表单词;
步骤6: 将步骤5拼接好的序列输入到模型中, 得到序列的向量表示, 使用和步骤4相同
的方法, 计算答案跨度的开始和结束位置, 使用交叉熵作为损失函数, 使用梯度下降的方式
更新模型参数, 得到模型推理得到的答案 。
2.如权利要求所述的一种基于预测重复跨度的多阶段阅读理解方法, 其特征在于, 步
骤1中, 使用贪心算法找到篇章序列p中所有的重复跨度, 并存放在列表span_cluster中, 其
表达式为: span_cluster[i]={(s1,e1),…,(sn,en)}, 其中, 每一项(sx,ex)表示第i组重 复
的跨度在篇 章中的开始位置和结束位置 。权 利 要 求 书 1/1 页
2
CN 114154515 A
2一种基于重复跨度预测的机 器阅读理解方 法
技术领域
[0001]本发明涉及 一种多阶段的机器阅读理解方法, 具体涉及 一种结合重复跨度预测任
务的预训练方法, 属于自然语言处 理机器阅读理解 技术领域。
背景技术
[0002]近年来, 随着深度学习技术的发展, 尤其是预训练模型的提出, 机器阅读理解技术
取得了明显的进步, 被广泛应用于文本问答、 信息抽取和搜索引擎 等多个方面。
[0003]机器阅读理解, 按照任务形式可以分为完形填空、 多项选择、 跨度预测和自由问答
四种类型。 其中, 跨度预测是在给定上下文和问题的前提下, 模型从上下文中抽取一段文本
作为答案, 这要求模型能够深入理解文本内容并做出推理。 和完形填空及多项选择任务相
比, 跨度预测对 模型的要求更高, 更能衡量模型对文本的理解 程度。
[0004]随着预训练技术的发展和相关数据集的发布, 基于跨度预测的阅读理解技术得到
了迅速的发展。 预训练 ‑微调的训练模式成为一种广泛应用的范式, 模型在预训练阶段, 通
过自监督的方式学习到丰富的语义知识, 在微调阶段向目标任务的数据分布靠近, 从而使
模型在目标任务上取得更好的效果。 目前, 在多个基于跨度的阅读理解数据集上, 神经网络
模型通过 该模式已经 取得了超过 人类的分数。
[0005]尽管预训练技术大大提高了模型的性能, 但对于具体任务而言, 要求模型微调阶
段必须有一定数量的带标签的数据集, 否则容易造成过拟合等问题。 由于带标签的数据集
构造非常耗费人力与时间, 目前出现了一些针对小规模数据集的工作, 比如 小样本学习、 半
监督学习等。 这些 方法从模型 上进行改进, 在少量数据上 取得了不错的效果。
[0006]尽管如此, 对跨度预测的阅读理解任务而言, 这些工作并没有从跨度预测的本质
出发, 针对跨度这个语义单位做进一步的挖掘, 导致模型面对小规模数据集无法学到充足
的跨度知识, 因此, 现有技 术在解决小规模阅读理解任务上效果 不佳。
发明内容
[0007]本发明的目的是针对现有技术未能对阅读理解中的跨度做进一步的学习, 导致在
解决小规模数据集上效果不佳的缺陷, 为了能充分利用文本中的跨度知识 解决阅读理解中
样本少的难题, 创造性 地提出了一种基于 重复跨度预测的机器阅读理解方法。
[0008]本方法的创新点在于: 在预训练和目标任务微调的中间, 增加了重复跨度预测的
任务, 以无监督的方式构 造数据, 让模 型学习到跨度边界和跨度之间的语义关系, 从而在小
样本的跨度预测场景 下也能取 得很好的效果。
[0009]本发明采用以下技 术方案实现。
[0010]首先, 对有关概念进行说明:
[0011]定义1: 篇 章序列p
[0012]其表达式为: {p=w1,w2,...,wN}, 表示阅读理解中的篇章, 该篇章中有N个单词w1,
w2,...,wN, 下标N为序列长度, w代 表单词。说 明 书 1/4 页
3
CN 114154515 A
3
专利 一种基于重复跨度预测的机器阅读理解方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:00:00上传分享