全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210969926.6 (22)申请日 2022.08.12 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 陈诺 程鸣权 潘秋桐 刘欢  李雅楠 陈坤斌 张楠 何伯磊  和为  (74)专利代理 机构 北京鸿德 海业知识产权代理 有限公司 1 1412 专利代理师 岳凤羽 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/338(2019.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 信息检索及模型训练方法、 装置、 设备和存 储介质 (57)摘要 本公开提供了一种信息检索及模型训练方 法、 装置、 设备和存储介质, 涉及人工智能技术领 域, 具体涉及智能搜索、 自然语言处理、 深度学习 等技术领域。 信息检索方法包括: 获取检索词对 应的至少一个候选文本; 针对任一候选文本, 基 于该候选文本的第一语义向量, 对 该候选文本中 的关键词的第二语义向量进行更新处理, 以获得 第三语义向量; 针对任一候选文本, 基于该候选 文本对应的第三语义向量和所述检索词的第四 语义向量, 确定该候选文本与所述检索词的相似 度; 基于各个候选文本与所述检索词的相似度, 对所述至少一个候选文本进行排序处理, 并基于 排序处理后的候选文本, 获得对应所述检索词的 检索结果。 本公开可以提高信息 检索效果。 权利要求书5页 说明书18页 附图7页 CN 115470313 A 2022.12.13 CN 115470313 A 1.一种信息检索方法, 包括: 获取检索词对应的至少一个候选文本; 针对任一候选文本, 基于该候选文本的第一语义向量, 对该候选文本中的关键词的第 二语义向量进行 更新处理, 以获得第三语义向量; 针对任一候选文本, 基于该候选文本对应的第 三语义向量和所述检索词的第四语义向 量, 确定该候选文本与所述检索词的相似度; 基于各个候选文本与所述检索词的相似度, 对所述至少一个候选文本进行排序处理, 并基于排序处 理后的候选文本, 获得对应所述检索词的检索结果。 2.根据权利要求1所述的方法, 其中, 所述获取检索词对应的至少一个候选文本, 包括: 获取多个匹配文本; 针对所述多个匹配文本包括的多个关键词, 分别确定各个关键词与 所述检索词的语义 相似度, 并确定各个关键词与所述检索词的文本相似度; 基于所述文本相似度和所述语义相似度, 确定所述各个关键词的召回概率, 所述召回 概率用于表征关键词被选择的概 率; 基于所述各个关键词的召回概率, 在所述多个关键词中选择预设个数的关键词, 以获 得选择后的关键词; 基于所述选择后的关键词所在的匹配文本, 获取所述检索词对应的至少一个候选文 本。 3.根据权利要求2所述的方法, 其中, 所述关键词包括: 标准问和触发词, 所述标准问是已有问答对中的问题, 所述触发词基 于所述标准问获得; 所述方法还 包括: 获取所述标准问的相似问; 基于所述标准问和所述相似问, 获得 所述标准问对应的触发词; 基于所述标准问和所述标准问对应的触发词, 生成所述匹配文本 。 4.根据权利要求3所述的方法, 其中, 所述基于所述标准问和所述相似问, 获得所述标 准问对应的触发词, 包括: 对所述标准问和所述相似问进行拼接处 理, 以获得拼接文本; 对所述拼接文本进行多种分词处 理, 以获得多组分词后的词语; 对所述多组分词后的词语进行合并处 理, 以获得候选词语; 对所述候选词语进行 过滤处理, 以获得 所述标准问对应的触发词。 5.根据权利要求1所述的方法, 其中, 所述关键词包括: 标准问和触发词, 所述标准问是已有问答对中的问题, 所述触发词基 于所述标准问获得; 相应地, 所述第二语义向量包括: 所述标准问对应的初始标准问语义向量和所述触发 词对应的初始触发词语义向量; 所述第三语义向量包括: 更新后的标准问语义向量和更新后的触发词语义向量; 所述针对任一候选文本, 基于该候选文本的第一语义向量, 对该候选文本中的关键词 的第二语义向量进行 更新处理, 以获得第三语义向量, 包括:权 利 要 求 书 1/5 页 2 CN 115470313 A 2基于所述第一语义向量和所述初始标准问语义向量, 确定第一注意力权 重; 基于所述第一注意力权 重和所述第一语义向量, 确定所述更新后的标准问语义向量; 基于所述第一语义向量和所述初始触发词语义向量, 确定第二注意力权 重; 基于所述第二注意力权 重和所述第一语义向量, 确定所述更新后的触发词语义向量。 6.根据权利要求5所述的方法, 其中, 所述针对任一候选文本, 基于该候选文本对应的 第三语义向量和所述检索词的第四语义向量, 确定该候选文本与所述检索词的相似度, 包 括: 基于所述更新后的标准问语义向量和所述第四语义向量, 确定第一 点积值; 基于所述更新后的触发词语义向量和所述第四语义向量, 确定第二 点积值; 将所述第一点积值和所述第 二点积值中的最大值, 作为该候选文本与 所述检索词的相 似度。 7.根据权利要求1 ‑6任一项所述的方法, 还 包括: 采用预训练的编码模型, 对所述各个候选文本进行编码处理, 以获得所述各个候选文 本的第一语义向量; 和/或, 所述检索词包括至少一个文本单元, 采用所述编码模型, 对所述检索词中的至少一个 文本单元分别进行编 码处理, 以获得至少一个编码向量, 以及, 对所述至少一个编码向量进 行合并处 理, 以获得 所述第四语义向量。 8.根据权利要求1 ‑6任一项所述的方法, 其中, 所述基于各个候选文本与 所述检索词的 相似度, 对所述至少一个候选文本进行排序处 理, 包括: 获取所述各个候选文本的热度; 基于所述相似度和所述热度, 确定所述各个候选文本的排序优先级; 基于所述 排序优先级, 对所述至少一个候选文本进行排序处 理。 9.一种模型训练方法, 包括: 获取训练数据, 所述训练数据包括: 样本检索词和对应的至少一个样本候选文本, 以 及, 各个样本候选文本与所述样本检索词之间的真实相似度; 针对任一样本候选文本, 采用编码模型对该样本候选文本进行编码处理, 以获得该样 本候选文本的第一语义向量; 针对任一样本候选文本, 基于该样本候选文本的第一语义向量, 对该样本候选文本中 的关键词的第二语义向量进行 更新处理, 以获得 该样本候选文本对应的第三语义向量; 采用所述编码模型, 对所述样本检索词中的至少一个文本单元分别进行编码处理, 以 获得至少一个编 码向量, 以及, 对所述至少一个编 码向量进 行合并处理, 以获得所述样 本检 索词的第四语义向量; 针对任一样本候选文本, 基于该样本候选文本对应的第 三语义向量和所述样本检索词 的第四语义向量, 确定该样本候选文本与所述样本检索词的预测相似度; 基于各个样本候选文本与所述样本检索词的预测相似度和所述各个样本候选文本与 所述样本检索词的真实相似度, 构建损失函数; 以及, 基于所述损失函数, 调整所述编码模 型的模型参数。 10.根据权利要求9所述的方法, 其中, 所述关键词包括: 标准问和触发词, 所述标准问是已有问答对中的问题, 所述触发词基权 利 要 求 书 2/5 页 3 CN 115470313 A 3

PDF文档 专利 信息检索及模型训练方法、装置、设备和存储介质

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 信息检索及模型训练方法、装置、设备和存储介质 第 1 页 专利 信息检索及模型训练方法、装置、设备和存储介质 第 2 页 专利 信息检索及模型训练方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。