全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210946984.7 (22)申请日 2022.08.08 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 黄婷 温泉  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 杜维 (51)Int.Cl. G06F 16/953(2019.01) G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 数据处理方法、 装置及计算机设备 (57)摘要 本申请实施例公开了一种数据处理方法、 装 置及计算机设备, 方法包括: 在确定目标搜索词 对应的N个候选改写词 后, 采用目标搜索词与N个 候选改写词构建N个目标词对; 一个目标词对包 括目标搜索词和一个候选改写词, 不同目标词对 中的候选改写词互不相同; 调用目标模型根据各 个目标词对的特征信息, 分别预测各个目标词对 中的候选改写词作为目标搜索词的有效改写词 的概率; 基于预测出的各个概率对N个候选改写 词进行排序处理, 以根据排序结果从N个候选改 写词中筛选出目标搜索词的有效改写词。 本申请 实施例可以基于候选改写词的排序结果确定出 目标搜索词的有效改写词, 提升有效改写词的筛 选准确性。 权利要求书5页 说明书31页 附图8页 CN 115292577 A 2022.11.04 CN 115292577 A 1.一种数据处 理方法, 其特 征在于, 所述方法包括: 在确定目标搜索词对应的N个候选改写词后, 采用所述目标搜索词与所述N个候选改写 词构建N个目标词对; 一个目标词对包括所述目标搜索词和一个候选改写词, 不同目标词对 中的候选改写词互不相同, N 为正整数; 调用目标模型根据各个目标词对的特征信 息, 分别预测所述各个目标词对中的候选改 写词作为所述目标搜索词的有效 改写词的概率; 所述目标模型采用至少一个训练样本和相 应的样本标签进行模型训练得到, 一个训练样本包括样本搜索词和样本改写词, 任一训练 样本的样本标签是基于相应训练样本中的各个词的后验数据确定, 且任一训练样本的样本 标签用于指示相应训练样本中的样本改写词是否为对应的样本 搜索词的有效改写词; 基于预测出的各个概率对所述N个候选改写词进行排序处理, 以根据排序 结果从所述N 个候选改写词中筛 选出所述目标搜索词的有效改写词。 2.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取第n个目标词对中的目标搜索词的词特征, 以及所述第 n个目标词对中的候选改写 词的词特征; 其中, 任一词特征包括以下至少一项: 相应词的文本特征、 后验特征以及语义 特征, n∈[1, N]; 基于获取到的两个词特 征之间的特 征差异, 确定所述第n个目标词对的交叉 特征; 采用获取到的两个词特 征以及所述交叉 特征, 构建所述第n个目标词对的特 征信息。 3.如权利要求1或2所述的方法, 其特 征在于, 所述方法还 包括: 获取用于训练初始模型的多个样本词对, 一个样本词对包括一个样本搜索词和一个样 本改写词; 根据每个样本词对中的各个词的后验数据, 分别对所述每个样本词对进行打标处理, 得到所述每 个样本词对的样本标签; 基于所述每个样本词对的样本标签以及所述每个样本词对中的各个词的后验数据, 在 所述多个样本词对中进行样本挖掘, 得到 至少一个训练样本; 采用所述至少一个训练样本和每个训练样本的样本标签, 对所述初始模型进行模型训 练, 得到目标模型。 4.如权利要求3所述的方法, 其特征在于, 所述获取用于训练初始模型的多个样本词 对, 包括: 获取第一历史时间段内产生的K个第一搜索词和各个第一搜索词的反馈信息集, 并获 取第二历史时间段内产生的H个第二搜索词和各个第二搜索词的反馈信息集, K和H均为正 整数; 根据所述各个第 一搜索词的反馈信 息集和所述各个第 二搜索词的反馈信 息集, 对所述 K个第一搜索词和所述H个第二搜索词进 行关联操作, 被关联的第一搜索词和 第二搜索词之 间对应有相同的反馈信息; 若关联操作的结果指示第 k个第一搜索词与至少一个第 二搜索词相关联, 则将所述第k 个第一搜索词作为样本搜索词, 并分别将所述第k个第一搜索词所关联的各个第二搜索词 作为样本改写词, 以构建得到用于训练初始模型的多个样本词对, k∈[1, K]。 5.如权利要求4所述的方法, 其特征在于, 所述获取第二历史时间段内产生的H个第二 搜索词和各个第二搜索词的反馈信息集, 包括:权 利 要 求 书 1/5 页 2 CN 115292577 A 2通过聚合分析第二历史时间段内产生的搜索行为日志, 得到H个第二搜索词以及每个 第二搜索词对应的各个反馈信息; 针对第h个第二搜索词, 获取所述第h个第二搜索词对应的各个反馈信息的信息曝光 量, h∈[1, H]; 按照信息曝光量从高到低的顺序, 根据所述各个反馈信息的信息曝光量从所述第h个 第二搜索词对应的全部反馈信息中, 选取目标数量的反馈信息构建所述第h个第二搜索词 的反馈信息集。 6.如权利要求3所述的方法, 其特征在于, 所述根据每个样本词对中的各个词的后验数 据, 分别对所述每 个样本词对进行打标处 理, 得到所述每 个样本词对的样本标签, 包括: 遍历所述多个样本词对中的各个样本词对, 将当前遍历的样本词对作为目标样本词 对; 根据所述目标样本词对中的样本搜索词的后验数据, 计算相应的样本搜索词的后验得 分; 并根据所述目标样本词对中的样本改写词的后验数据, 计算相 应的样本改写词的后验 得分; 基于计算出的两个后验得分之间的相对大小关系, 对所述目标样本词对进行打标处 理, 得到所述目标样本词对的样本标签。 7.如权利要求6所述的方法, 其特征在于, 任一后验数据包括: 相应词的词搜索量、 词点 击量和词标准化观看得分; 所述词点击量是根据相应词所对应的各个反馈信息的信息点击 量计算得到的; 所述词标准化观看得分是根据相应词所对应的各个反馈信息的观看信息计 算得到的; 所述根据 所述目标样本词对中的样本搜索词的后验数据, 计算相应的样本搜索词的后 验得分, 包括: 根据所述目标样本词对中的样本搜索词的词搜索量和相应的词标准化观看得分, 计算 所述目标样本词对中的样本 搜索词在观看维度下的后验表现分; 根据所述目标样本词对中的样本搜索词的词搜索量和相应的词点击量, 计算所述目标 样本词对中的样本 搜索词在点击量维度下的后验表现分; 对计算得到的各个后验表现分进行加权求和, 得到所述目标样本词对中的样本搜索词 的后验得分。 8.如权利要求6所述的方法, 其特征在于, 所述基于计算出的两个后验得分之间的相对 大小关系, 对所述目标样本词对进行打标处 理, 得到所述目标样本词对的样本标签, 包括: 若计算出的样本搜索词的后验得分, 小于计算出的样本改写词的后验得分, 则将第一 标签作为所述目标样本对的样本标签; 若计算出的样本搜索词的后验得分, 大于或等于计算出的样本改写词的后验得分, 则 将第二标签作为所述目标样本对的样本标签; 其中, 所述第一标签用于指示样本改写词是相应样本搜索词的有效改写词, 所述第二 标签用于指示样本改写词不是相应样本 搜索词的有效改写词。 9.如权利要求3所述的方法, 其特征在于, 所述基于所述每个样本词对的样本标签以及 所述每个样本词对中的各个词的后验数据, 在所述多个样本词对中进行样本挖掘, 得到至 少一个训练样本, 包括:权 利 要 求 书 2/5 页 3 CN 115292577 A 3

PDF文档 专利 数据处理方法、装置及计算机设备

文档预览
中文文档 45 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共45页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置及计算机设备 第 1 页 专利 数据处理方法、装置及计算机设备 第 2 页 专利 数据处理方法、装置及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。