专利 一种基于BART的多任务语义解析模型

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210936486.4 (22)申请日 2022.08.05 (71)申请人中国石油大学（华东）地址 266000 山东省青岛市黄岛区长江西路66号 (72)发明人张卫山　王振琦　侯召祥　孙晨瑜　陈涛　 (74)专利代理机构青岛鼎丞智佳知识产权代理事务所(普通合伙) 3727 7 专利代理师王剑伟 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01) (54)发明名称一种基于BART的多任务语义解析模型 (57)摘要本发明提供了一种基于BART的多任务语义解析模型，属于自然语言处理技术领域，模型包括词嵌入层、 B ART编码层、领域分类器、 B ART解码层、概率解码器、 SPARQL解码器和语法检查器，本发明通过这七部分的配合，并基于Transformer 的Encoder ‑Decoder模型架构，通过词语删除、句子排列变换、文档旋转、词语填充等手段增加文本噪声，并将带噪声的输入解码映射为原始文本，通过训练得到序列到序列的编码器，在问答、翻译、摘要等生成任务中取得了更好的效果。本发明将自然语言直接转换为知识图谱查询语言 SPARQL，简化问答步骤以起到减少误差累积的作用，并对问题进行领域识别，根据所属领域查询对应的专业领域知识库，从而提高问答准确率。权利要求书3页说明书9页附图1页 CN 115309879 A 2022.11.08 CN 115309879 A 1.一种基于BA RT的多任务语义解析模型，其特征在于：所述模型包括词嵌入层、 BART编码层、领域分类器、 BART解码层、概率解码器、 SPARQL解码器和语法检查器；所述词嵌入层将输入问题中每个字符转化为向量表示，并输入BART编码层；所述BART编码层学习字符向量深层的语义信息并进行编码，将最后一层编码的隐含层向量表示分别输入领域分类器和 BART解码层；所述领域分类器对最后一层隐含层向量进行文本分类，以求得该问题所属领域；所述BART解码层根据问题编码信息和上文解码信息，通过语言模型产生完整的解码信息；所述概率解码器对BART解码器最后一层输出的向量进行语义信息增强解码，并将解码信息输入SPARQL解码器模块；所述SPARQL解码器模块根据解码策略和领域信息，循环生成 SPARQL查询语句，并将语句输入语法检查器模块；所述语法检查器用于检查SPARQL查询语句的语法错误。 2.如权利要求1所述的一种基于BART的多任务语义解析模型，其特征在于：所述词嵌入层将输入问题中每个字符转化为向量表示，具体为：通过[CLS]、问句、 [SEP]字符拼接组成输入数据，数据最大长度为512个字符，长则截断，短则通过[ PAD]字符填充；在字典表中添加特殊字符 “？ x”、“？ y”和SPARQL语法中的特殊字符；通过词语嵌入与位置嵌入相加得到每个输入字符的向量表示，计算公式如下所示： Eembedding＝Eword+Eposition (1) 其中， Eword为字符的词嵌入向量， Eposition为位置嵌入向量， Eembedding为输入字符的向量表示。 3.如权利要求1所述的一种基于BART的多任务语义解析模型，其特征在于：所述BART使用标准的Transformer模型，包含6层Transformer编码器和6层Transformer解码器，所述 BART编码层通过双向多头注意力机制综合学习不同子空间中的特征，捕捉更深层次的语义信息，具体为： Transformer编码器的多头注意力子层采用自注意力机制，为每个单词创建Query、 Key 和Value三个向量来计算自注意力得分，计算公式如下所示： Multihead(Q， K， V)＝Co ncat(head1， head2， ...， headh)WO (4) 其中， Softmax为逻辑回归函数， Attention函数用Softmax函数计算自注意力，通过不同的组合计算多组自注意力head_i， Multihead(Q， K， V)通过Concat函数将多组自注意力进行连接，组合成为多头注意力；执行Transformer编码器的层归一化，防止出现协方差偏移问题，并通过残差连接以防权　利　要　求　书 1/3 页 2 CN 115309879 A 2止梯度消失，计算公式如下所示； SubLayer＝ Layer_Normalization(x+(sublayer(x) )) (5) x为当前层双头注意力运算结果， Sublayer(x)为下一层的双头注意力运算结果，两个运算结果直接相加即进行残差链接，并通过Layer_N ormalization进行层归一化；通过前馈网络层与非线性激活函数ReLU，提高网络的非线性拟合效果；将计算结果输入下一层Transformer编码器，共执行6层Transformer编码器，各层之间不会共享权值。 4.如权利要求1所述的一种基于BART的多任务语义解析模型，其特征在于：所述领域分类器将BART编码层最后一层的隐含层向量表示作为该层的输入，通过文本分类输出问题所属领域。 5.如权利要求1所述的一种基于BART的多任务语义解析模型，其特征在于：所述BART编码层根据问题编码信息和上文解码信息，通过语言模型实现SPARQL从左至右自回归文本生成，具体为： Transformer解码器的多头注意力子层采用自注意力机制，为每个字符的向量创建 Query、 Key和Value三个向量来计算自注意力得分，计算公式如上述公式(2)、公式(3)和公式(4)所示；使用上三角MASK矩阵，屏蔽下文信息，使得每个词语只能关注上文信息，防止在训练时模型使用未来输入的单词；执行Transformer解码的层归一化，防止出现协方差偏移问题，并通过残差连接以防止梯度消失，计算公式如公式(5)所示；根据问题编码信息和上文解码信息，通过语言模型实现SPA RQL从左至右自回归文本生成，语言模型计算如下所示： p(y1， y2， y3， ...， yn)＝p(y1|Eo)p(y2|Eo， y1)p(y3|Eo， y1， y2)...p(yn|Eo， y1， ...， yn‑1) (6) 上述公式为马尔可夫模型计算公式， Eo表示起始字符，公式从第1字符开始计算后续字符出现的概率， p(yi|Eo， y1， ...， yi‑1)表示在Eo、 yi至yi‑1出现时，下一个字符为yi的概率为多少。 6.如权利要求1所述的一种基于BART的多任务语义解析模型，其特征在于：所述概率解码器将BART编码层最后一层输出的向量融合BART编码层最后一层的分类标签[CLS]向量，实现语义信息增强解码，并运算得到词表中每一个单词的概率。 7.如权利要求1所述的一种基于BA RT的多任务语义解析模型，其特征在于：所述SPARQL 解码器根据解码策略和领域信息，循环从词典分布中选择一个词作为每一时刻生成的结果，完成S PARQL查询语句生成。 8.如权利要求1所述的一种基于BART的多任务语义解析模型，其特征在于：所述语法检查器纠正模型输出的简单语法错误，以提高问答的准确率。 9.一种应用在知识图谱问答系统中的多任务语义解析设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如权利要求 1至8任意一项所述解析模型的计算机程序；所述处理器执行所述存储器存储的权　利　要　求　书 2/3 页 3 CN 115309879 A 3

专利 一种基于BART的多任务语义解析模型

专利一种基于BART的多任务语义解析模型