专利一种属性抽取方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210458635.0 (22)申请日 2022.04.15 (71)申请人苏州大学地址 215000 江苏省苏州市吴中区石湖西路188号 (72)发明人陈文亮　张世奇　周夏冰　张民　 (74)专利代理机构苏州市中南伟业知识产权代理事务所(普通合伙) 32257 专利代理师王广浩 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种属性抽取方法、装置及存储介质 (57)摘要本发明将属性抽取任务化为片段抽取式阅读理解任务，采用属性抽取与文本属性判断联合训练的多任务模型。模型以BERT ‑B i‑LSTM作为编码模块，分别对输入文本与问题编码，将结构化信息作为问题来增强模型的泛化能力。然后使用词边界特征增强的方法以帮助模型捕获属性值的边界特征，结合多头注意力机制在全局向量特征的基础上融入词汇特征。同时，设计一种文本特征交互方法，用于判断文本中是否存在与问题对应的属性值，该方法作为辅助任务与属性值边界预测任务联合训练。权利要求书3页说明书9页附图2页 CN 114817564 A 2022.07.29 CN 114817564 A 1.一种属性抽取方法，其特征在于，包括：将预处理后的问题和文本输入预先训练好的属性抽取模型中，所述问题是MASK标记代替头尾实体后的三元组，即为结构化信息；利用BERT模型计算得到问题全局向量表示和第一文本全局向量表示，并对所述第一文本全局向量表示经过双向长短期记忆层Bi‑LSTM编码得到第二文本全局向量表示；利用多头注意力机制将所述第二文本全局向量表示与所述问题全局向量表示进行交互后得到具有问题结构化信息泛化特征的文本全局向量表示；将所述文本输入自动分词工具得到该文本的分词结果和分词向量表示；根据所述分词结果中词语首尾标签的绝对位置索引，在所述具有问题结构化信息泛化特征的文本全局向量表示的对应位置加入所述分词向量表示，得到最终文本向量表示；预测所述最终文本向量表示中待抽属性值边界，获得目标属性值。 2.根据权利要求1所述的属性抽取方法，其特征在于，所述利用BERT模型计算得到问题全局向量表示和第一文本全局向量表示，并对所述第一文本全局向量表示经过双向长短期记忆层Bi‑LSTM编码得到第二文本全局向量表示包括：对所述问题Q和所述文本S 进行分词，每一个字由一个标记的词向量TE(wi)，区分两个不同句子的词向量SE(wi)，以及位置词向量PE(wi)组成，得到问题与文本的向量表示；将所述问题与文本的向量表示输入所述BERT模型后得到编码后的所述问题全局向量表示和所述第一文本全局向量表示其中为 BERT编码后问题中每个字符的向量表示，为BERT编码后文本中每个字符的向量表示；使用所述双向长短期记忆层Bi ‑LSTM对所述第一文本全局向量表示Xs编码，得到所述第二文本全局向量表示其中为Bi‑LSTM编码后文本中每个字符的向量表示。 3.根据权利要求2所述的属性抽取方法，其特征在于，所述使用所述双向长短期记忆层 Bi‑LSTM对第一文本全局向量表示Xs编码，得到所述第二文本全局向量表示包括：计算所述第一文本全局向量Xs的隐状态表示，得到编码后的所述第二文本全局向量表示所述每个时刻i的隐状态oi由前向LSTM的隐状态和后向LSTM的隐状态拼接得到，计算公式如下： 4.根据权利要求1所述的属性抽取方法，其特征在于，所述根据所述分词结果中词语首尾标签的绝对位置索引，在所述具有问题结构化信息泛化特征的文本全局向量表示的对应位置加入所述分词向量表示，得到最终文本向量表示包括：权　利　要　求　书 1/3 页 2 CN 114817564 A 2所述文本分词结果中的词语位置表示为： P[ai， ti]＝{p1[a1， t1]， p2[a2， t2]...pn[an， tn]}，其中ai、 ti，别表示每个词语在文本中的所述首尾标签的绝对位置索引,pn表示第n个词；在所述具有问题结构化信息泛化特征的文本全局向量表示的对应位置加入经Bi‑LSTM并归一化后的含有词语时序特征的所述分词向量表示V，得到最终文本向量表示Hv。 5.根据权利要求4所述的属性抽取方法，其特征在于，所述预测所述最终文本向量表示中待抽属性值边界，获得目标属性值包括：采用两个线性层分别预测所述最终文本向量中每个字作为起始位置s与终止位置e的概率： si＝sigmoid(FNN(Hv)) ei＝sigmoid(FNN(Hv) 其中， si表示文本第i个字作为属性值起始位置的概率， ei表示文本第i个字作为属性值结尾位置的概率；将所述起始位置与其相应的结束位置作为所述目标属性值的坐标。 6.根据权利要5所述的属性抽取方法，其特征在于，所述属性抽取模型的训练过程包括属性值边界预测任务，所述属性值边界预测任务的具体步骤为：构建相应的训练集；利用所述训练集训练模型直至损失函数收敛，所述损失函数包括各个字作为起始位置的losss和终止位置的l osse：其中，和是真实属性值的边界表示。 7.根据权利要求6所述的属性抽取方法，其特征在于，所述属性抽取模型的训练过程包括文本属性类型分类任务，所述文本属性类型分类任务的具体步骤为：将所述训练集中文本和问题在所述BRET模型的CLS Token输出表示与作为文本特征表示和属性类型特征表示；利用多头注意力机制使与进行交互，得到综合分类特征hAtt；利用分类器根据所述综合分类特征训练判断文本中是否存在与待抽属性类型相关的所述待抽属性值，以便使模型更关注于文本中与待抽取属性相关的属性值，损失函数为：其中， yj表示真实类别真实值， Pj表示第j类属性类型的预测值。 8.一种属性抽取的装置，其特征在于，包括：输入模块，用于将预处理后的问题和文本输入预先训练好的属性抽取模型中，所述问权　利　要　求　书 2/3 页 3 CN 114817564 A 3

专利 一种属性抽取方法、装置及存储介质

专利一种属性抽取方法、装置及存储介质