说明:收录25万 73个行业的国家标准 支持批量下载
QQ浏览器搜索中的智能问答技术 空白演示 Lorem ipsum dolor sit amet, consectetur adipisicing elit. 姚 婷 2022.03.12 目录 n 背景介绍 p 智能问答在搜索中的应用 p 搜索Top1问答 n 关键技术 p 搜索问答的技术框架 p KBQA:基于知识图谱的问答 p DeepQA:基于搜索+机器阅读理解的问答 n 前沿研究 p 端到端问答 p 知识指导的问答 p 多模态问答 | 2 问答是什么?-理解语言和运用知识,提问和回答问题 信息获取的需求和人类的好奇心驱使, 问答无处不在 从图灵测试到问答机器人打败人类冠军, 问答是认知智能的前沿之一 Q:汽车没电了打不着火怎么办? A:需要采用应急电源,汽车搭电或者是将电 瓶充电的方式将车辆启动… Q:大红袍是什么茶? A:大红袍属于乌龙茶。 Q:螃蟹一般蒸多少分钟? A:15分钟左右。 Q:天为什么是蓝色的? A:大气本身是无色的。阳光进入大气时,波 长较长的色光,如红光,透射力大,能透过大气 射向地面;而波长短的紫、蓝、青色光,碰到大 气分子、冰晶、水滴等时很容易发生散射现 象… | 问答在搜索中的应用 ✧ 问答提供精准答案,满足直接需求 Top1 -rich snippet 整页 -智能摘要&飘红 ✧ 问答提供知识线索,探索深度需求 交互式 -需求澄清、细化、延展 提问推荐、通过答案召回、对话 | 搜索中的Top1精准问答 - 产品 短答案 长答案/关键句 列表答案 视频答案 集合和图片答案 | 目录 n 背景介绍 p 智能问答在搜索中的应用 p 搜索Top1问答 n 关键技术 p 搜索问答的技术框架 p KBQA:基于知识图谱的问答 p DeepQA:基于搜索+机器阅读理解的问答 n 前沿研究 p 端到端问答 p 知识指导的问答 p 多模态问答 | 6 搜索中问答 - 需求与信息来源 资源类型 网页 UGC PGC 搜索中用户明确问答需求占比25% 问题类型 事实型 问题query示例 单/多实体: (factoid) 木鱼花是什么鱼做的 3% 信息来源 资讯、文库、官网、百科 社区问答、论坛 企鹅号/头条号/百家号/公众号/抖音等自媒体 答案基本形态 短答案 --支持文本 结构化 Oberon 索尼PS5、PlayStation 5 10.28 TFLOPs 中国古代四大名著 代号 近义词 首席架构师 手柄 3.5 GHz 售价 PS5 算力 DualSense 时间/数量: 发售 2020年年末 描述 制造成本 主频 …… 竞争对手 Mark Cerny 索尼PS系列最新产品、新世代游戏主机 450美元 微软 Xbox Series X 半结构化 飞机改签提前多久 中国跨多少个时区 非事实型 (nonfactoid) 22% 描述:静水流深的寓意 比较:猕猴桃和奇异果有什么区别 方法:苹果手机电池掉的快怎么办 枚举:推荐十本好看的历史小说 原因:无线网很卡怎么回事 长答案 --长文本 --列表 --主体列表 --观点论据 无结构化 观点:华为p30值得买吗 | 搜索中问答技术与系统 问答融合决策 n KBQA DeepQA Ø 图谱构建 Ø 在线解析/查询/推理 数据:结构化(三元组SPO) 系统:独立KBQA系统 n DeepQA 在线MRC KBQA QP/QA匹配排序 语义解析 排序 排序 QQ语义匹配 知识推理计算 召回 召回 稠密段落检索 知识检索 Ø 问答内容构建 Ø 在线搜索+机器阅读理解 网页库 2、全网搜索+在线MRC系统 3、端到端问答系统 知识图谱 问答内容筛选 特征写入 全网问答内容分析 数据:非结构化[半结构/无结构](问答对/文档) 系统:1、独立优质问答系统 优质问答库 CP内容提交 问答对挖掘 问答对生产 质量特征 离线MRC 问题生成 权威性 页面解析 需求发现 知识验证 语义表示 问题聚类 优质选取 | KBQA:基于知识图谱的问答系统 KBQA三元组 图谱数据 诗词类 图引擎 语义解析pipeline 深度学习pipeline 单实体类 解析查询 多实体类 | DeepQA:基于搜索+机器阅读理解的问答系统 从早期复杂流水线的DeepQA系统,到深度学习端到端的DeepQA系统 IBM Waston DeepQA Project 利用深度MRC的开放域问答系统DrQA 2016 2011 立知第一版搜索在线服务的问答系统 2019.7 2017.3 | Neural Machine Reading Comprehension: Methods and Trends DeepQA:基于搜索+机器阅读理解的问答系统 搜索场景问答的挑战: 1. 用户需求和表达方式多样,互联网数据规模巨大,检索匹配难度更大 2. 网页数据质量参差,类型格式不一,答案形态多样,机器阅读理解难度更大 短答案 判断类 周杰伦蜡像什么时候亮相上 海杜莎夫人蜡像馆? 已经改签的高铁票还能再次 改签吗? 百科 资讯 长答案 电子齿轮比分子分母是什 么意思? CQA 表格 列表 苹果忘记ID怎么办? 官网 Latex 希腊字母符号 专栏 | 短答案MRC 从搜索结果的多个文档抽取唯一答案片段+支持文本来源 问题1:搜索结果噪声较多 - 包括不相关结果,不一致答案等 李宁获得过几块奥运金牌? 模型优化-多文档段落抽取(*)改进 ü 可能无答案,通过答案存在性判别+起始位置预测目标联合训练 ü 答案可能不一致,增加多文档交互学习有正确答案的概率 *Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering | 短答案MRC 从搜索结果的多个文档抽取唯一答案片段+支持文本来源 问题2:常识性错误 - 模型可能会输出一些无意义答案,例如边界错误、答案类型错误 Q:地线用什么字母表示 D: “……国际通用的表示方法:火线L(英文单词LIVE的第一 个字母)零线N(英文单词NEUTRAL的第一个字母)地线 E/GND(英文单词EARTH第一个字母或者Ground的简写) ……” A:英文单词(错误) *浅层特征方法:通过LAT识别 和选择候选实体,收集文档上 下文特征评分和投票 模型优化-引入外部知识信息: ü LAT和类型匹配实体的关注 !"#$%&'()*+,--. 伪相关反馈[Title] 查询Query (/(0 词法句 法分析 疑问词 同义转换 LAT词 LAT扩展 () MLP+softmax → ℎ! MLP+softmax concat LSTM → ℎ" ← ℎ! ← s concat LSTM MLP+softmax → ℎ# ← ℎ" LSTM !! 12 concat → LSTM ← ℎ# LSTM !" s LSTM !# LAT识别:基于图谱、百科、大词林、日志挖掘 | 短答案MRC 从搜索结果的多个文档抽取唯一答案片段+支持文本来源 问题3:鲁棒性 - 模型过拟合的问题使得输出不稳定 模型优化-提升鲁棒性: ü R-drop*:两次dropout效果较好,在se-loss 和answerable-loss分别加入KL-loss ü 引入同语义query数据增强,加入对段落输 出部分的KL-loss • dropout是一种有效防止训练过拟合的方式 • 但dropout会让每次训练的模型不能保持一致性 • R-drop通过作用于输出层,降低了训练和测试的不一致,引 入对称KL散度作为正则项,强化了输出的稳定性 *R-Drop: Regularized Dropout for Neural Networks | 短答案MRC 从搜索结果的多个文档抽取唯一答案片段+支持文本来源 问题4:答案归一化和多span问题 Fusion-in-Decoder(FiD) - 多个文档中的答案可能说法不一,抽取式答案归一化 - 答案可能是多个span,抽取式难优化 短答案生成式方法 - 以Fusion-in-Decoder*为例 - 将多个检索文档分别进行编码表示后,拼接成一个 序列表示,输入到decoder依次解码生成统一答案 抽取 生成 安全带使用期限是几年 [3-5年、3年至5年、三五年左右] 3-5年 沉鱼落雁是指谁 王昭君 (……沉鱼指的是西施,落雁指 的是王昭君……) 西施和王昭君 数据和模型优化: 1. 利用点击日志,文档生成query进行预训练 2. 利用短答案日志,构建大量弱监督数据进行自训练 3. 训练答案置信度预测模型,代替生成模型困惑度 *Leveraging passage retrieval with generative models for open domain question answering. | 长答案MRC 长答案和短答案的差异: 短答案 长答案 答案长度 较短的片段 较长的摘要 答案区域 段落内 可能跨段落,不连续 阅读范围 多文档段落 单文档全文 评价指标 EM/F1 Bleu/Rouge/F1 搜索长答案问题统计: 全文内容长,信息量大,平均在1000字+,答案 长度250字+,且不连续的比例40% | 长答案MRC-组合式问答 从搜索结果每个单文档抽取若干片段组合成精选摘要答案 组合式问答: • 定义:给定问题Q,文档D,将D划分为完整语义片段(启发式分句),预测答案为若干片段组合 {Si} • 评价:自动评价(组合预测的F1值)+人工评价 Ø 模型基础框架 ü 引入页面结构信息 Html标签能一定程度反映页面结构、文本关系、展示重要度特征, 选择特定标签作为结构符号输入 • <p><br><tr><td> • <h><strong> • <img> ü 设计预训练任务 一般预训练方法都是句子级别的,没有有效挖掘文档级别的特殊信息, 因此引入两类网页相关的预训练任务 • 问题选择 • 句子选择 | 长答案MRC-组合式问答 从搜索结果每个单文档抽取若干片段组合成精选摘要答案 从段落到文章抽取,有更多结构信息可用 - 文档是层级结构的(词-句子-文章),统一建模对结构信息利用不充分

pdf文档 QQ浏览器搜索中的智能问答技术

文档预览
中文文档 35 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
QQ浏览器搜索中的智能问答技术 第 1 页 QQ浏览器搜索中的智能问答技术 第 2 页 QQ浏览器搜索中的智能问答技术 第 3 页
下载文档到电脑,方便使用
本文档由 路人甲 于 2022-08-13 07:00:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。