全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211202291.3 (22)申请日 2022.09.29 (71)申请人 招商局金融科技有限公司 地址 518000 广东省深圳市福田区华 富街 道皇岗路5001号深业上城(南区)二期 35层、 36层 (72)发明人 陈先丽 王阳 刘屹 孙猛  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 30/19(2022.01) G10L 15/26(2006.01) (54)发明名称 基于关键词和语义的搜索方法、 装置、 设备 及存储介质 (57)摘要 本发明涉及人工智能技术, 揭露一种基于关 键词和语义的搜索方法、 装置、 设备及介质, 所述 方法包括: 对输入内容进行文本转换及标准化处 理, 得到标准文本; 对标准文本进行意图识别, 根 据意图识别结果提取标准文本所对应的目标数 据库; 利用目标数据库对 标准文本进行关键词召 回, 根据召回结果生成第一搜索集合; 构建标准 文本的样 本对, 将标准文本及样 本对输入语义向 量模型中, 得到对应的语义向量; 根据目标数据 库生成目标向量数据库, 将语义向量与目标向量 数据库中的源向量进行比对查询, 根据比对查询 的结果生 成第二搜索集合; 对第一搜索集合与第 二搜索集合中的搜索结果进行排序组合, 得到目 标搜索集合。 本发明可以提高搜索结果的准确性 以及搜索速度。 权利要求书3页 说明书12页 附图3页 CN 115438166 A 2022.12.06 CN 115438166 A 1.一种基于关键词和语义的搜索方法, 其特 征在于, 所述方法包括: 获取用户的输入内容, 对所述输入内容进行文本转换, 得到输入文本, 并对所述输入文 本进行标准化处理, 得到标准文本; 对所述标准文本进行意图识别, 根据意图识别结果提取所述标准文本所对应的目标数 据库; 利用所述目标数据库对所述标准文本进行关键词召回, 根据召回结果生成第 一搜索集 合; 构建所述标准文本的样本对, 将所述标准文本及所述样本对输入预设的语义向量模型 中, 得到所述标准文本所对应的语义向量; 根据所述目标数据库生成 目标向量数据库, 将所述语义向量与 所述目标向量数据库中 的源向量进行比对查询, 并根据比对查询的结果 生成第二搜索集 合; 对所述第一搜索集合与所述第 二搜索集合中的搜索结果进行排序组合, 得到目标搜索 集合。 2.如权利要求1所述的基于关键词和语义的搜索方法, 其特征在于, 所述对所述输入内 容进行文本转换, 得到 输入文本, 包括: 判断输入内容 为文本、 语音还是图片; 当所述输入内容 为文本时, 将所述输入内容作为输入文本; 当所述输入内容为语音时, 对所述输入内容进行特征提取, 得到语音特征, 利用预设的 声学模型计算所述语音特 征, 得到输入文本; 当所述输入内容为图片时, 对所述输入内容进行OCR图片文字识别, 并将识别的结果作 为输入文本 。 3.如权利要求1所述的基于关键词和语义的搜索方法, 其特征在于, 所述利用所述目标 数据库对所述标准文本进行关键词召回, 根据召回结果 生成第一搜索集 合, 包括: 获取所述目标 数据库的所有内容文档, 并提取 所述标准文本的关键词; 利用预设是核心搜索公式对所述内容文档以及所述关键词进行匹配计算, 得到每个 内 容文档对应的匹配分值; 对所述内容文档以及所述关键词进行匹配 计算如下式所示: 其中, score(D, Q)为内容文档D对应的匹配分值; IDF(qi)为第i个关键词的逆文档频率 (Inverse  Document  Frequency, IDF); n为所述标准文本的关键词数量; f(qi,D)为第i个关 键词在文档D中的词频(Term  Frequency, TF); k、 b为预设的自由参数; |D|为内容文档D的总 词数; avgdl(avera ge document  length)为所有内容文档长度的平均值; 根据匹配分值从所述目标数据库中召回得到目标搜索文本, 并根据所述目标搜索文档 生成第一搜索集 合。 4.如权利要求1所述的基于关键词和语义的搜索方法, 其特征在于, 所述构建所述标准 文本的样本对, 包括:权 利 要 求 书 1/3 页 2 CN 115438166 A 2对所述标准文本进行分词处理, 得到文本分词, 并对所述文本分词进行分词重复, 得到 第一正样本; 利用预设的同义词典搜索所述文本分词的同义词, 利用所述同义词进行文本分词替 换, 得到第二 正样本; 随机采样生成所述标准文本的负样本, 并将所述第 一正样本及所述第 二样本作为所述 标准文本的正样本, 根据所述负 样本及所述 正样本确定所述标准文本的样本对。 5.如权利要求1所述的基于关键词和语义的搜索方法, 其特征在于, 所述将所述标准文 本及所述样本对输入预设的语义向量模型中, 得到所述标准文本所对应的语义向量, 包括: 对所述标准文本及所述样本对进行 特征编码, 得到编码文本及编码 样本对; 利用所述语义向量模型的多层感知器对所述编码样本对进行全连接, 得到输出样本 对; 利于预设的目标函数对所述编码文本及所述输出样本对计算, 得到函数值, 并判断所 述函数值是否符合预设要求; 利用下式对所述编码文本及所述输出样本对计算: 其中, h1、 h2为未知编码量; sim(h1,h2)为h1与h2的余弦相似度; l为所述函数值; sim(h, hp)为编码文本h与输出样本对中输出正样本hp的余弦相似度; sim(h,hq)为编码文本h与输 出样本对中输出负样本hq的余弦相似度; N为输出正样本总数量; M为输出负样本总数量; τ 为预设的温度系数; 若所述函数值不符合预设要求, 则修 正所述语义向量模型的参数; 若所述函数值预设要求, 则将所述输出样本中的输出正样本作为语义向量。 6.如权利要求1所述的基于关键词和语义的搜索方法, 其特征在于, 所述根据 所述目标 数据库生成目标向量数据库, 包括: 提取所述目标数据库中的目标数据, 对所述目标数据进行特征转换, 得到所述目标数 据对应的特 征向量; 将所述特 征向量存 储至预设的Mi lvus数据库中, 得到目标向量数据库。 7.如权利要求1至6中任一项所述的基于关键词和语义的搜索方法, 其特征在于, 所述 对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合, 得到目标搜索集 合, 包括: 剔除所述第一搜索集 合与所述第二搜索集 合中相同的搜索结果, 得到目标搜索结果; 根据所述第一搜索集 合与所述第二搜索集 合的排序设置所述目标搜索结果的权 重; 根据所述权重对所述目标搜索结果重新排序, 并根据重新排序后的搜索结果生成 目标 搜索集合。 8.一种基于关键词和语义的搜索装置, 其特 征在于, 所述装置包括: 标准文本生成模块, 用于获取用户的输入内容, 对所述输入内容进行文本转换, 得到输权 利 要 求 书 2/3 页 3 CN 115438166 A 3

.PDF文档 专利 基于关键词和语义的搜索方法、装置、设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于关键词和语义的搜索方法、装置、设备及存储介质 第 1 页 专利 基于关键词和语义的搜索方法、装置、设备及存储介质 第 2 页 专利 基于关键词和语义的搜索方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。