(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211243870.2
(22)申请日 2022.10.12
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
申请人 北京邮电大 学
(72)发明人 毛震东 张勇东 王泉 彭奕兴
(74)专利代理 机构 合肥天明专利事务所(普通
合伙) 34115
专利代理师 谢中用 金凯
(51)Int.Cl.
G06N 20/00(2019.01)
G06F 40/205(2020.01)
(54)发明名称
一种基于自适应专 家系统的智能问答方法
(57)摘要
本发明涉及自然语 言理解技术领域, 公开了
一种基于自适应专家系统的智能问答方法, 对任
意的输入实例, 基于模型的梯度来计算一个嵌入
表示, 并用这个基于梯度的嵌入表 示来自适应地
对专家进行调制; 以这种方式, 自适应专家系统
将能充分适应于输入的实例, 捕捉实例的特性,
从而数据集的特性 也隐式地进行了表达 。
权利要求书3页 说明书7页 附图1页
CN 115310622 A
2022.11.08
CN 115310622 A
1.一种基于自适应专 家系统的智能问答方法, 其特 征在于: 自适应专 家系统包括:
基本模型 ( θ, α ), 包括基于Transformer的问答模块θ和瓶颈结构适配器α; 基于
Transformer的问答模块θ包括预训练Transformer编码器, Transformer编码器包括多个
Transformer层; 在每一个Tran sformer层中插入两个所述的瓶颈结构适配器α; 瓶颈结构适
配器α 包括依次设置的下投影层、 GeLU非线性层、 上投影层;
调制层β, 添加至各瓶颈结构适配器α 的下投影层之后以及上投影层之后, 用于通过实
例级别调制信号 来调节上投影层和下投影层的输出;
基于梯度的调制器 γ, 用于产生所述的实例级别调制信号;
自适应专 家系统的训练方法包括两个阶段:
第一阶段, 训练基本模型( θ,α ): 通过在所有源数据集DS上计算交叉熵损失一
对基本模型 ( θ, α ) 进行训练:
其中
表示给定问题q和上下文c情况下得到真实回答a的概率,
为基本模型中回答开始位置概率
和回答结束位
置概率
的乘积,
和
分别表示回答a的开始位置标记和结束位
置标记;
第二阶段, 冻结基本模型 ( θ, α ) , 在所有的源数据集DS上调试调制层β和调制器γ: 给定
一个训练实例
, 首先用基本模型 ( θ, α ) 来提取梯度, 然后将训练实例
和提取的梯度输入至自适应专家系统 ( θ, α, β,γ) 对回答进行预测, 采用交叉熵损
失二
调制β 和γ:
其中
, 用
来标记自适应专家系统预测得到回答a的概率;
为自适应专家系
统中回答开始位置概率,
为自适应专家系统中回答结束位置概
率;
自适应专家系统 ( θ, α, β,γ) 完成训练后, 将待回答的实例输入基本模型 ( θ, α ) 中提取
梯度, 然后将待回答的实例和梯度输入自适应专 家系统 ( θ, α, β,γ) 对回答进行 预测。
2.根据权利要求1所述的基于自适应专家系统 的智能问答方法, 其特征在于: 下投影层
后的调制层为第一调制层, 上 投影层后的调制层为第二调制层; 调制层β 通过实例级别调制
信号来调节上投影层和下投影层的输出时, 过程如下:
第一调制层的输出
第二调制层的输出
其中
分别为瓶颈结构适配器的m维输入和输出, MLP 为用于维度映射权 利 要 求 书 1/3 页
2
CN 115310622 A
2的多层感知机,
分别是下投影层和上投影层的参数,
分别是第一调制层所用到的实例级别调制信号、 第二调制层所用到
的实例级别调制信号, [;]为串接操作, GeLU ( ) 为GeLU非线性层的输出。
3.根据权利要求1所述的基于自适应专家系统 的智能问答方法, 其特征在于: 使用基于
梯度的调制器 γ产生实例级别调制信号时, 包括以下步骤:
步骤一: 将每 个实例输入基本模型, 预测回答 开始位置分布和结束位置的分布;
步骤二: 从开始位置的分布和结束位置的分布中采样出伪标签, 并根据伪标签和预测
分布计算交叉熵损失;
步骤三: 提取交叉熵损失关于瓶颈结构适配器α 的梯度, 将提取到的瓶颈结构适配器的
梯度从底层到顶层排列成梯度序列, 并使用GRU对梯度序列进 行编码为隐状态, 然后将隐状
态输入至 MLP多层感知机得到所述的实例级别调制信号。
4.根据权利要求3所述的基于自适应专家系统 的智能问答方法, 其特征在于: 产生实例
级别调制信号的步骤三具体包括: 问答模块有L个Tr ansformer层, 每层有两个瓶颈结构适
配器, 用
和
来分别标记第
个Transformer层的第一个瓶颈结构适配器的梯
度绝对值和第二个瓶颈结构适配 器的梯度绝对值;
将提取到的2L个瓶颈结构适配器的梯度, 按从底层到顶层的顺序排列为一个梯度序列
, 使用GRU将梯度序列编码为与梯度序列各元素
对应的隐状态 记为
;
对于每个
, 使用两个M LP多层感知机分别产生两个实
例级别调制信号
和
, 用于第
层Transformer中的第i个适配器, 实例级别调制信号
用于下投影层之后的调制层, 实例级别调制信号
用于上投影层之后的调制层。
5.根据权利要求3所述的基于自适应专家系统 的智能问答方法, 其特征在于: 自适应专
家系统训练的第二阶段过程中, 除交叉熵损失二
外, 额外引入对比学习损失
, 将第二阶段的损失函数替换为
:
其中λ是
和
的权衡因子;
给定实例
, 经过GRU编码后表征为隐状态
, 来自相同数据集的实例作为正样本
,
来自不同数据集的实例作为负 样本
, 对比学习损失
被定义为:
是两个向量表征之间的余弦相似度,
是温度参数,
为正样本
中的实例编码
后的隐状态,
为负样本
中的实例编码后的隐状态。
6.根据权利要求1所述的基于自适应专家系统的智能问答方法, 其特征在于: 所述
Transformer层包括一个多头自注意力层和一个全连接前馈层, 两个瓶颈结构适配器分别权 利 要 求 书 2/3 页
3
CN 115310622 A
3
专利 一种基于自适应专家系统的智能问答方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:10:35上传分享