全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211107796.1 (22)申请日 2022.09.13 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 林欣 彭凯龙 吴平  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 40/18(2020.01) G06F 40/166(2020.01) G06F 40/205(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于表格-文本混合数据的多跳问答模 型构建方法 (57)摘要 本发明公开了一种基于表格 ‑文本混合数据 的多跳问答模 型构建方法, 所构建的模型由文本 内容过滤模块、 表格行内容筛选模块以及融合数 据抽取问答模块组成。 文本内容过滤模块用于筛 选与问题相关的文本句段内容; 表格行内容筛选 模块用于构建表 格行‑文本融合数据并进一步筛 选出与问题相关的内容; 融合数据抽取问答模块 用于在表格行内容 ‑文本融合数据中抽取答案。 本发明构建的模 型通过对内容的筛选, 大幅减少 冗余信息, 使文本内容对表格内容进行有效补 充, 加快模型训练速度, 提高了表格 ‑文本混合数 据问答的准确性。 权利要求书2页 说明书7页 附图1页 CN 115481613 A 2022.12.16 CN 115481613 A 1.一种基于表格 ‑文本混合数据的多跳问答模型构建方法, 其特征在于, 该方法在模型 构建过程中使用包括以下内容的表格 ‑文本混合数据集: 问题q及其对应表格数据T={H, D}, 其中含有表格的列名H={h1, ..., hn}以及表格的m 行n列数据D ={r1, ..., rm}, 第i行数据表示为ri={di1, ..., din}, 位于i行j列的单元格存在 或不存在o个对应的实体标题 ‑文本对Pij={eij1: pij1, ..., eijo: pijo}; 所构建的模型包括: 文本内容过滤模块、 表格行内容筛选模块及融合数据抽取问答模 块; 所述文本内容过滤模块用于以行为单位筛选与单元格内容存在链接并与问题相关的句 段内容; 所述表格行内容筛选模块用于以行为单位构建表格行 ‑文本融合数据, 训练得到表 格行内容筛选模型并进一步筛选出与问题相关的内容; 所述融合数据抽取问答模块用于在 剩余的表格行内容 ‑文本融合数据中训练得到融合数据抽取问答模型并抽取答案; 其中: 所述以行为单位筛 选与单元格内容存在链接并与问题相关的句段内容, 具体过程 为: A1: 将表格一行数据的所有链接文本拆分成句段, 计算每个句段pijk与问题q的文本相 似度sijk; 公式如下: pijk‑cat=[CLS]eijk: pijk[SEP] qcat=[CLS]q[ SEP] uijk=BERT(pijk‑cat) v=BERT(qcat) sijk=uijk·v 其中pijk‑cat表示句段文本pijk与所在文本的实体标题eijk以及特殊字符[CLS]、 [SEP]拼 接后得到的序列; qcat表示问题q与特殊字 符[CLS]、 [SEP]拼接后得到的序列; BERT表 示预训 练BERT编码模型; uijk表示pijk‑cat经BERT模型编码后取[CLS]字符得到的向量作为句向量; v 表示qcat经BERT模型编码后取[CLS]字符得到的向量作为句向量; .表示向量 点乘操作; A2: 将同一行所有文本句段计算得到的相似度从大到小 排序, 取相似度最高的前Kp个句 段进行保留; 所述以行为单位构建表格行 ‑文本融合数据, 训练得到表格行内容筛选模型并进一步 筛选出与问题相关的内容, 具体步骤为: B1: 将表格的每一行数据构 造为表格 ‑文本融合序列ri‑cat=c1‑cat, ..., cn‑cat, 其中cj‑cat 为第j个单元格内容的拼接结果: 若该单元格存在经上一步筛选而保留的文本, 则cj‑cat= hj: dij(pij‑cat), 否则cj‑cat=hj: dij; 文本pij‑cat为“实体标题: 文本 ”键值对的拼接结果; B2: 遍历表格每一行的所有单元格内容与文本内容, 若其中存在答案文本, 则定义该行 与问题相关, 令该 行数据ri‑cat与问题q的相关度si=1, 否则si=0; B3: 使用表格行内容筛 选模型计算第i行 数据ri‑cat与问题q的相关度 公式如下: qcat‑r=[CLS]q[ SEP]ri‑cat[SEP] 其中qcat‑r为问题q与融合文本ri‑cat以及特殊字符[CLS]、 [SEP]拼接后得到的序列; FFN 代表线性操作; Softmax代表softmax 激活函数; 与 分别为第i行数据计 算得到的正负相 关度; B4: 计算表格行内容筛 选模型输出 与标签si的偏差损失Lr; 公式如下:权 利 要 求 书 1/2 页 2 CN 115481613 A 2其中θr为表格行内容筛 选模型参数; B5: 遍历训练数据集中所有问题 ‑行文本对并计算损失, 根据损失调整模型参数直至Lr 不再降低, 得到最终的表格行内容筛 选模型; B6: 使用步骤B5得到的模型, 将同一表格所有行数据计算得到的正相 关度 从大到小 排序, 取相似度最高的前 Kr行进行保留; 所述在剩余的表格行内容 ‑文本融合数据中训练得到 融合数据抽取问答模型并抽取答 案, 具体过程 为: C1: 将筛选得到的Kr行表格行内容 ‑文本融合数据构造为序列 作 为问题q的参 考文本; C2: 在序列t中寻找答案, 标记答案的起始位置st与结束位置en, 若未找到则st=0且en =0; 令答案起始位置的起始概率ps(st)=1, 结束位置的结束概率pe(en)=1, 序列其余位置 的ps、 pe均为0; C3: 使用融合数据抽取问答模型计算问题q在参 考t中的答案位置 与 公式如下: qcat‑t=[CLS]q[ SEP]t[SEP] 其中qcat‑t为问题q与序列t以及特殊字符[CLS]、 [SEP]拼接后得到的序列; TransformerEncoder 表示TransformerEncoder编码模型; C4: 计算融合数据抽取问答模型输出 与真实答案ps、 pe的偏差损失L; 公式如下: L( θa)=(Ls( θa)+Le( θa))/2 其中CrossEntropy为Cr ossEntropy损失函数, len(qcat‑t)为qcat‑t的分词数量, θa为融合 数据抽取问答模型参数; C5: 遍历训练数据集中所有问题 ‑参考文本对并计算损失, 根据损失调整模型参数直至 L不再降低, 得到最终的融合数据抽取问答模型; C6: 使用步骤C5得到的模型, 计算参考文 本中 最大的位置分别作为参考文本中答 案起始位置 与结束位置 取出从 到 的文本作为问题q的答案 。权 利 要 求 书 2/2 页 3 CN 115481613 A 3

.PDF文档 专利 一种基于表格-文本混合数据的多跳问答模型构建方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于表格-文本混合数据的多跳问答模型构建方法 第 1 页 专利 一种基于表格-文本混合数据的多跳问答模型构建方法 第 2 页 专利 一种基于表格-文本混合数据的多跳问答模型构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。