专利一种基于表格-文本混合数据的多跳问答模型构建方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211107796.1 (22)申请日 2022.09.13 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人林欣　彭凯龙　吴平　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06F 40/18(2020.01) G06F 40/166(2020.01) G06F 40/205(2020.01) G06N 20/00(2019.01) (54)发明名称一种基于表格-文本混合数据的多跳问答模型构建方法 (57)摘要本发明公开了一种基于表格 ‑文本混合数据的多跳问答模型构建方法，所构建的模型由文本内容过滤模块、表格行内容筛选模块以及融合数据抽取问答模块组成。文本内容过滤模块用于筛选与问题相关的文本句段内容；表格行内容筛选模块用于构建表格行‑文本融合数据并进一步筛选出与问题相关的内容；融合数据抽取问答模块用于在表格行内容 ‑文本融合数据中抽取答案。本发明构建的模型通过对内容的筛选，大幅减少冗余信息，使文本内容对表格内容进行有效补充，加快模型训练速度，提高了表格 ‑文本混合数据问答的准确性。权利要求书2页说明书7页附图1页 CN 115481613 A 2022.12.16 CN 115481613 A 1.一种基于表格 ‑文本混合数据的多跳问答模型构建方法，其特征在于，该方法在模型构建过程中使用包括以下内容的表格 ‑文本混合数据集：问题q及其对应表格数据T＝{H， D}，其中含有表格的列名H＝{h1， ...， hn}以及表格的m 行n列数据D ＝{r1， ...， rm}，第i行数据表示为ri＝{di1， ...， din}，位于i行j列的单元格存在或不存在o个对应的实体标题 ‑文本对Pij＝{eij1： pij1， ...， eijo： pijo}；所构建的模型包括：文本内容过滤模块、表格行内容筛选模块及融合数据抽取问答模块；所述文本内容过滤模块用于以行为单位筛选与单元格内容存在链接并与问题相关的句段内容；所述表格行内容筛选模块用于以行为单位构建表格行 ‑文本融合数据，训练得到表格行内容筛选模型并进一步筛选出与问题相关的内容；所述融合数据抽取问答模块用于在剩余的表格行内容 ‑文本融合数据中训练得到融合数据抽取问答模型并抽取答案；其中：所述以行为单位筛选与单元格内容存在链接并与问题相关的句段内容，具体过程为： A1：将表格一行数据的所有链接文本拆分成句段，计算每个句段pijk与问题q的文本相似度sijk；公式如下： pijk‑cat＝[CLS]eijk： pijk[SEP] qcat＝[CLS]q[ SEP] uijk＝BERT(pijk‑cat) v＝BERT(qcat) sijk＝uijk·v 其中pijk‑cat表示句段文本pijk与所在文本的实体标题eijk以及特殊字符[CLS]、 [SEP]拼接后得到的序列； qcat表示问题q与特殊字符[CLS]、 [SEP]拼接后得到的序列； BERT表示预训练BERT编码模型； uijk表示pijk‑cat经BERT模型编码后取[CLS]字符得到的向量作为句向量； v 表示qcat经BERT模型编码后取[CLS]字符得到的向量作为句向量； .表示向量点乘操作； A2：将同一行所有文本句段计算得到的相似度从大到小排序，取相似度最高的前Kp个句段进行保留；所述以行为单位构建表格行 ‑文本融合数据，训练得到表格行内容筛选模型并进一步筛选出与问题相关的内容，具体步骤为： B1：将表格的每一行数据构造为表格 ‑文本融合序列ri‑cat＝c1‑cat， ...， cn‑cat，其中cj‑cat 为第j个单元格内容的拼接结果：若该单元格存在经上一步筛选而保留的文本，则cj‑cat＝ hj： dij(pij‑cat)，否则cj‑cat＝hj： dij；文本pij‑cat为“实体标题：文本 ”键值对的拼接结果； B2：遍历表格每一行的所有单元格内容与文本内容，若其中存在答案文本，则定义该行与问题相关，令该行数据ri‑cat与问题q的相关度si＝1，否则si＝0； B3：使用表格行内容筛选模型计算第i行数据ri‑cat与问题q的相关度公式如下： qcat‑r＝[CLS]q[ SEP]ri‑cat[SEP] 其中qcat‑r为问题q与融合文本ri‑cat以及特殊字符[CLS]、 [SEP]拼接后得到的序列； FFN 代表线性操作； Softmax代表softmax 激活函数；与分别为第i行数据计算得到的正负相关度； B4：计算表格行内容筛选模型输出与标签si的偏差损失Lr；公式如下：权　利　要　求　书 1/2 页 2 CN 115481613 A 2其中θr为表格行内容筛选模型参数； B5：遍历训练数据集中所有问题 ‑行文本对并计算损失，根据损失调整模型参数直至Lr 不再降低，得到最终的表格行内容筛选模型； B6：使用步骤B5得到的模型，将同一表格所有行数据计算得到的正相关度从大到小排序，取相似度最高的前 Kr行进行保留；所述在剩余的表格行内容 ‑文本融合数据中训练得到融合数据抽取问答模型并抽取答案，具体过程为： C1：将筛选得到的Kr行表格行内容 ‑文本融合数据构造为序列作为问题q的参考文本； C2：在序列t中寻找答案，标记答案的起始位置st与结束位置en，若未找到则st＝0且en ＝0；令答案起始位置的起始概率ps(st)＝1，结束位置的结束概率pe(en)＝1，序列其余位置的ps、 pe均为0； C3：使用融合数据抽取问答模型计算问题q在参考t中的答案位置与公式如下： qcat‑t＝[CLS]q[ SEP]t[SEP] 其中qcat‑t为问题q与序列t以及特殊字符[CLS]、 [SEP]拼接后得到的序列； TransformerEncoder 表示TransformerEncoder编码模型； C4：计算融合数据抽取问答模型输出与真实答案ps、 pe的偏差损失L；公式如下： L( θa)＝(Ls( θa)+Le( θa))/2 其中CrossEntropy为Cr ossEntropy损失函数， len(qcat‑t)为qcat‑t的分词数量， θa为融合数据抽取问答模型参数； C5：遍历训练数据集中所有问题 ‑参考文本对并计算损失，根据损失调整模型参数直至 L不再降低，得到最终的融合数据抽取问答模型； C6：使用步骤C5得到的模型，计算参考文本中最大的位置分别作为参考文本中答案起始位置与结束位置取出从到的文本作为问题q的答案。权　利　要　求　书 2/2 页 3 CN 115481613 A 3

专利 一种基于表格-文本混合数据的多跳问答模型构建方法

专利一种基于表格-文本混合数据的多跳问答模型构建方法