专利基于关键词和语义的搜索方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211202291.3 (22)申请日 2022.09.29 (71)申请人招商局金融科技有限公司地址 518000 广东省深圳市福田区华富街道皇岗路5001号深业上城(南区)二期 35层、 36层 (72)发明人陈先丽　王阳　刘屹　孙猛　 (74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙) 44347 专利代理师高杰　于志光 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 30/19(2022.01) G10L 15/26(2006.01) (54)发明名称基于关键词和语义的搜索方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能技术，揭露一种基于关键词和语义的搜索方法、装置、设备及介质，所述方法包括：对输入内容进行文本转换及标准化处理，得到标准文本；对标准文本进行意图识别，根据意图识别结果提取标准文本所对应的目标数据库；利用目标数据库对标准文本进行关键词召回，根据召回结果生成第一搜索集合；构建标准文本的样本对，将标准文本及样本对输入语义向量模型中，得到对应的语义向量；根据目标数据库生成目标向量数据库，将语义向量与目标向量数据库中的源向量进行比对查询，根据比对查询的结果生成第二搜索集合；对第一搜索集合与第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合。本发明可以提高搜索结果的准确性以及搜索速度。权利要求书3页说明书12页附图3页 CN 115438166 A 2022.12.06 CN 115438166 A 1.一种基于关键词和语义的搜索方法，其特征在于，所述方法包括：获取用户的输入内容，对所述输入内容进行文本转换，得到输入文本，并对所述输入文本进行标准化处理，得到标准文本；对所述标准文本进行意图识别，根据意图识别结果提取所述标准文本所对应的目标数据库；利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合；构建所述标准文本的样本对，将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量；根据所述目标数据库生成目标向量数据库，将所述语义向量与所述目标向量数据库中的源向量进行比对查询，并根据比对查询的结果生成第二搜索集合；对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合。 2.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述对所述输入内容进行文本转换，得到输入文本，包括：判断输入内容为文本、语音还是图片；当所述输入内容为文本时，将所述输入内容作为输入文本；当所述输入内容为语音时，对所述输入内容进行特征提取，得到语音特征，利用预设的声学模型计算所述语音特征，得到输入文本；当所述输入内容为图片时，对所述输入内容进行OCR图片文字识别，并将识别的结果作为输入文本。 3.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合，包括：获取所述目标数据库的所有内容文档，并提取所述标准文本的关键词；利用预设是核心搜索公式对所述内容文档以及所述关键词进行匹配计算，得到每个内容文档对应的匹配分值；对所述内容文档以及所述关键词进行匹配计算如下式所示：其中， score(D， Q)为内容文档D对应的匹配分值； IDF(qi)为第i个关键词的逆文档频率 (Inverse Document Frequency， IDF)； n为所述标准文本的关键词数量； f(qi,D)为第i个关键词在文档D中的词频(Term Frequency， TF)； k、 b为预设的自由参数； |D|为内容文档D的总词数； avgdl(avera ge document length)为所有内容文档长度的平均值；根据匹配分值从所述目标数据库中召回得到目标搜索文本，并根据所述目标搜索文档生成第一搜索集合。 4.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述构建所述标准文本的样本对，包括：权　利　要　求　书 1/3 页 2 CN 115438166 A 2对所述标准文本进行分词处理，得到文本分词，并对所述文本分词进行分词重复，得到第一正样本；利用预设的同义词典搜索所述文本分词的同义词，利用所述同义词进行文本分词替换，得到第二正样本；随机采样生成所述标准文本的负样本，并将所述第一正样本及所述第二样本作为所述标准文本的正样本，根据所述负样本及所述正样本确定所述标准文本的样本对。 5.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量，包括：对所述标准文本及所述样本对进行特征编码，得到编码文本及编码样本对；利用所述语义向量模型的多层感知器对所述编码样本对进行全连接，得到输出样本对；利于预设的目标函数对所述编码文本及所述输出样本对计算，得到函数值，并判断所述函数值是否符合预设要求；利用下式对所述编码文本及所述输出样本对计算：其中， h1、 h2为未知编码量； sim(h1,h2)为h1与h2的余弦相似度； l为所述函数值； sim(h, hp)为编码文本h与输出样本对中输出正样本hp的余弦相似度； sim(h,hq)为编码文本h与输出样本对中输出负样本hq的余弦相似度； N为输出正样本总数量； M为输出负样本总数量； τ 为预设的温度系数；若所述函数值不符合预设要求，则修正所述语义向量模型的参数；若所述函数值预设要求，则将所述输出样本中的输出正样本作为语义向量。 6.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述根据所述目标数据库生成目标向量数据库，包括：提取所述目标数据库中的目标数据，对所述目标数据进行特征转换，得到所述目标数据对应的特征向量；将所述特征向量存储至预设的Mi lvus数据库中，得到目标向量数据库。 7.如权利要求1至6中任一项所述的基于关键词和语义的搜索方法，其特征在于，所述对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合，包括：剔除所述第一搜索集合与所述第二搜索集合中相同的搜索结果，得到目标搜索结果；根据所述第一搜索集合与所述第二搜索集合的排序设置所述目标搜索结果的权重；根据所述权重对所述目标搜索结果重新排序，并根据重新排序后的搜索结果生成目标搜索集合。 8.一种基于关键词和语义的搜索装置，其特征在于，所述装置包括：标准文本生成模块，用于获取用户的输入内容，对所述输入内容进行文本转换，得到输权　利　要　求　书 2/3 页 3 CN 115438166 A 3

专利 基于关键词和语义的搜索方法、装置、设备及存储介质

专利基于关键词和语义的搜索方法、装置、设备及存储介质