全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111664124.6 (22)申请日 2021.12.31 (71)申请人 北京字跳网络技 术有限公司 地址 100190 北京市海淀区紫金 数码园4号 楼2层0207 (72)发明人 刘月  (74)专利代理 机构 北京知帆远景知识产权代理 有限公司 1 1890 代理人 吴文婧 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/9535(2019.01) G06K 9/62(2022.01) (54)发明名称 数据处理方法、 装置、 设备, 及计算机可读存 储介质 (57)摘要 本申请公开了一种数据处理方法、 装置、 设 备, 及计算机可读存储介质, 其中, 方法包括: 获 取用户的查询信息对应的备选文档集; 对所述备 选文档集中的各备选文档进行分析, 确定所述各 备选文档对应的主题词组, 得到所述备选文档集 对应的主题词组集; 确定所述查询信息针对所述 备选文档集中各备选文档的相关信息, 得到所述 查询信息针对 所述备选文档集的相关信息集, 所 述相关信息为备选文档对应的多个查询项中, 与 所述查询信息的相似度值大于预设相似度值的 查询项; 根据所述备选文档集, 所述主题词组集, 以及所述相关信息集确定所述查询信息对应的 目标召回结果, 以提高根据查询信息确定出的召 回文档与查询信息的匹配度。 权利要求书2页 说明书15页 附图4页 CN 114328889 A 2022.04.12 CN 114328889 A 1.一种数据处 理方法, 其特 征在于, 包括: 获取用户的查询信息对应的备选文档集; 对所述备选文档集中的各备选文档进行分析, 确定所述各备选文档对应的主题词组, 得到所述备选文档集对应的主题词组集; 确定所述查询信 息针对所述备选文档集中各备选文档的相关信 息, 得到所述查询信 息 针对所述备选文档集的相关信息集, 所述相关信息为备选文档对应的多个查询项中, 与所 述查询信息的相似度值大于预设相似度值的查询项; 根据所述备选文档集, 所述主题词组集, 以及所述相关信息集确定所述查询信息对应 的目标召回结果。 2.根据权利要求1所述的方法, 其特征在于, 根据 所述备选文档集, 所述主题词组集, 以 及所述相关信息集确定所述 查询信息对应的目标召回结果包括: 针对所述备选文档集中的各备选文档, 利用备选文档对应的主题词组以及所述查询信 息针对所述备选文档对应的相关信息, 确定所述查询信息与所述备选文档的匹配度信息, 得到所述备选文档集对应的多个匹配度信息; 基于所述备选文档集与所述多个匹配度信息确定所述 查询信息对应的目标召回结果。 3.根据权利要求2所述的方法, 其特征在于, 针对所述各备选文档, 对备选文档进行分 析, 确定所述备选文档对应的主题词组, 包括: 将所述备选文档, 输入预设的LDA模型, 确定所述备选文档对应的分析结果, 所述分析 结果包括所述备选文档对应的主题词组。 4.根据权利要求3所述的方法, 其特征在于, 针对所述各备选文档, 利用备选文档对应 的主题词组以及所述查询 信息针对所述备选文档的相关信息, 确定所述查询 信息与所述备 选文档的匹配度信息包括: 若所述相关信 息与所述主题词组满足第 一预设条件, 则根据所述第 一预设条件确定所 述匹配度信息; 若所述相关信 息与所述主题词组不满足所述第 一预设条件, 则获取所述备选文档对应 的标题信息, 并基于所述 查询信息与所述标题信息确定所述匹配度信息 。 5.根据权利要求4所述的方法, 其特征在于, 基于所述查询信 息与所述标题信 息确定所 述匹配度信息包括: 当所述查询信 息与所述标题信 息的匹配度 大于预设匹配度时, 基于所述预设匹配度确 定所述匹配度信息 。 6.根据权利要求5所述的方法, 其特征在于, 所述分析结果还包括所述主题词组与 所述 备选文档的相关度值, 所述方法还 包括: 确定所述 查询信息与所述主题词组是否满足第二预设条件, 若否, 则 获取所述主题词组与所述备选文档的相关度值, 当所述相关度值处于第一数值区间 时, 触发利用备选文档对应的主题词组以及所述查询信息针对所述备选文档的相关信息, 确定所述 查询信息与备选文档的匹配度信息的步骤。 7.根据权利要求6所述的方法, 其特 征在于, 所述方法还 包括: 当所述相关度值不处于所述第 一数值区间时, 则确定所述相关度值是否处于第 二数值 区间, 若是, 则根据所述第二数值区间确定所述匹配度信息; 其中, 所述第二数值区间小于权 利 要 求 书 1/2 页 2 CN 114328889 A 2所述第一数值区间。 8.根据权利要求1所述的方法, 其特征在于, 基于所述备选文档集与 所述多个匹配度信 息确定所述 查询信息对应的目标召回结果包括: 依据所述多个匹配度信息对所述备选文档集中的各备选文档进行排序, 得到排序结 果; 根据所述 排序结果确定所述目标召回结果。 9.根据权利要求8所述的方法, 其特征在于, 所述目标召回结果包括目标召回文档, 以 及目标召回文档的排序信息, 所述方法还 包括: 将所述目标召回结果发送至目标设备, 使所述目标设备根据所述目标召回文档的排序 信息展示所述目标召回文档。 10.一种数据处理装置, 其特征在于, 包括: 获取模块、 分析模块、 第一确定模块, 以及第 二确定模块; 其中: 获取模块, 用于获取用户的查询信息对应的备选文档集; 分析模块, 用于对所述备选文档集中的各备选文档进行分析, 确定所述各备选文档对 应的主题词组, 得到所述备选文档集对应的主题词组集; 第一确定模块, 用于确定所述查询信息针对所述备选文档集中各备选文档的相关信 息, 得到所述查询信息针对所述备选文档集的相关信息集, 所述相关信息为备选文档对应 的多个查询项中, 与所述 查询信息的相似度值大于预设相似度值的查询项; 第二确定模块, 用于根据 所述备选文档集, 所述主题词组集, 以及所述相关信 息集确定 所述查询信息对应的目标召回结果。 11.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1 ‑9任一项所述的 方法。 12.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1 ‑9任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114328889 A 3

.PDF文档 专利 数据处理方法、装置、设备,及计算机可读存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置、设备,及计算机可读存储介质 第 1 页 专利 数据处理方法、装置、设备,及计算机可读存储介质 第 2 页 专利 数据处理方法、装置、设备,及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:45:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。