全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210959045.6 (22)申请日 2022.08.10 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 朱秀红 曹训 张伟 黄泽谦  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 祝亚男 (51)Int.Cl. G06F 16/953(2019.01) G06F 16/9532(2019.01) G06F 16/906(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 搜索请求的处理方法、 装置、 计算机设备及 存储介质 (57)摘要 本申请公开了一种搜索请求的处理方法、 装 置、 计算机设备及存储介质, 属于计算机技术领 域。 本申请通过对原始Query进行 实体识别, 得到 原始Query中的实体对象, 再在实体对象的基础 上改写得到实体Query, 并在改写得到的实体 Query上进行类别预测, 再对预测所得的各个候 选类别进行去重, 能够快速高效地识别原始 Query所属的目标类别, 由于在进行类别预测时 已经过滤掉了原始Query中的非实体字符, 而在 实体对象的基础上改写到的实体Query又能避免 漏掉不同实体对象组合形成的实体Query, 极大 改善了长尾Query漏召回的现象, 从而极大提升 了针对长尾Query进行类别预测的准确率和召回 率。 权利要求书4页 说明书33页 附图8页 CN 115329176 A 2022.11.11 CN 115329176 A 1.一种搜索请求的处 理方法, 其特 征在于, 所述方法包括: 对搜索请求携带的查询文本进行实体识别, 得到所述查询文本包含的至少一个实体对 象; 基于所述至少一个实体对象, 获取所述查询文本所对应的至少一个实体查询文本, 所 述实体查询文本由一个或多个实体对象组合形成; 对所述至少一个实体查询文本分别进行类别预测, 得到所述至少一个实体查询文本各 自所关联的候选类别; 对所述至少一个实体查询文本各自所关联的候选类别进行去重, 得到所述查询文本所 关联的目标类别。 2.根据权利要求1所述的方法, 其特征在于, 所述对搜索请求携带的查询文本进行实体 识别, 得到所述 查询文本包 含的至少一个实体对象包括: 对所述查询文本包 含的多个字符进行 特征提取, 得到所述 查询文本的语义特 征; 基于所述查询文本的语义特征, 对所述查询文本进行实体识别, 得到所述至少一个实 体对象。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述查询文本包含的多个字符进行 特征提取, 得到所述 查询文本的语义特 征包括: 对所述查询文本进行分词处 理, 得到所述 查询文本包 含的多个字符; 对所述多个字符进行 特征提取, 得到所述 查询文本的字符特 征; 将所述查询文本的字符特征输入到实体识别模型的多个第 一编码层中, 通过所述多个 第一编码层对所述查询文本的字符特征进行编码, 输出所述查询文本的语义特征, 所述实 体识别模型用于对所述 查询文本进行实体识别。 4.根据权利要求3所述的方法, 其特征在于, 所述基于所述查询文本的语义特征, 对所 述查询文本进行实体识别, 得到所述至少一个实体对象包括: 将所述查询文本的语义特征输入到所述实体识别模型的第 一全连接层中, 通过所述第 一全连接层 对所述查询文本的语义特征进 行全连接处理, 得到所述查询文本的全连接语义 特征; 将所述全连接语义特征输入到所述实体识别 模型的条件随机场CRF层中, 通过所述CRF 层预测得到所述 查询文本中多个字符各自的实体边界位置标签; 基于所述多个字符各自的实体边界位置标签, 从所述多个字符中划分得到所述至少一 个实体对象。 5.根据权利要求4所述的方法, 其特征在于, 所述通过所述CRF层预测得到所述查询文 本中多个字符各自的实体边界位置标签包括: 获取所述多个字符所对应的多个候选边界位置标签构成的多条候选路径; 通过所述CRF层, 对所述多条候选路径分别进行打分, 得到所述多条候选路径各自的路 径分数, 所述路径分数表征对应候选路径所包含的候选边界位置标签属于所述实体边界位 置标签的可能性; 将路径分数最高的候选路径所包含的多个候选边界位置标签确定为所述多个字符各 自的实体边界位置标签。 6.根据权利要求4所述的方法, 其特征在于, 所述基于所述多个字符各自的实体边界位权 利 要 求 书 1/4 页 2 CN 115329176 A 2置标签, 从所述多个字符中划分得到所述至少一个实体对象包括: 基于所述多个字符各自的实体边界位置标签, 确定所述至少一个实体对象各自的起始 字符和结束字符; 基于所述至少一个实体对象各自的起始字符和结束字符, 从所述多个字符中划分得到 所述至少一个实体对象。 7.根据权利要求1所述的方法, 其特征在于, 所述对所述至少一个实体查询文本分别进 行类别预测, 得到所述至少一个实体查询文本各自所关联的候选类别包括: 对所述至少一个实体查询文本 中的任一实体查询文本, 提取所述实体查询文本的字符 特征; 基于所述实体查询文本的字符特征, 获取所述实体查询文本的全局实体语义特征, 所 述全局实体 语义特征表征所述实体查询文本中各字符在类别预测任务上的全局语义; 基于所述全局实体 语义特征, 预测得到所述实体查询文本所关联的候选类别。 8.根据权利要求7所述的方法, 其特征在于, 所述基于所述实体查询文本的字符特征, 获取所述实体查询文本的全局实体 语义特征包括: 将目标分类符的字符特征和所述实体查询文本的字符特征输入到类别预测模型的多 个第二编码层中, 所述类别预测模型用于预测实体查询文本所关联的候选类别; 通过所述多个第二编码层对所述目标分类符的字符特征和所述实体查询文本的字符 特征进行编码, 输出 所述目标分类符对应的所述全局实体 语义特征。 9.根据权利要求8所述的方法, 其特征在于, 所述基于所述全局实体语义特征, 预测得 到所述实体查询文本所关联的候选类别包括: 将所述全局实体语义特征输入到所述类别预测模型的多个第 二全连接层中, 通过所述 多个第二全连接层 对所述全局实体语义特征进 行全连接处理, 得到所述 实体查询文本的全 连接实体 语义特征; 对所述全连接实体语义特征进行非线性映射, 得到所述实体查询文本属于多个叶子类 别各自的预测得分; 将预测得分最大的叶子类别确定为所述实体查询文本所关联的候选类别。 10.根据权利要求1所述的方法, 其特征在于, 所述对所述至少一个实体查询文本各自 所关联的候选类别进行去重, 得到所述 查询文本所关联的目标类别之后, 所述方法还 包括: 从预设类别表中, 查询得到所述目标类别所关联的一个或多个层级类别, 所述层级类 别是指在不同层级下分别与所述目标类别具有关联关系的上级或下级类别。 11.一种搜索请求的处 理方法, 其特 征在于, 所述方法包括: 将搜索请求的查询文本输入到共享编码模型中, 通过所述共享编码模型提取所述查询 文本的全局类别特征, 所述全局类别特征表征所述查询文本中各字符在类别预测任务上的 全局语义, 所述共享编 码模型用于针对查询文本编 码得到可供类别预测的全局类别特征以 及可供实体识别的语义特 征; 对所述全局类别特 征进行全连接处 理, 得到所述 查询文本的全连接类别特 征; 对所述全连接类别特征进行非线性映射, 得到所述查询文本属于多个叶子类别各自的 预测得分; 将预测得分最大的叶子类别确定为所述 查询文本所关联的目标类别。权 利 要 求 书 2/4 页 3 CN 115329176 A 3

PDF文档 专利 搜索请求的处理方法、装置、计算机设备及存储介质

文档预览
中文文档 46 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共46页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 搜索请求的处理方法、装置、计算机设备及存储介质 第 1 页 专利 搜索请求的处理方法、装置、计算机设备及存储介质 第 2 页 专利 搜索请求的处理方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。