全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210641187.8 (22)申请日 2022.06.08 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 易超 李习华 赵学敏 曹云波  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 陈梅君 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06Q 50/20(2012.01) (54)发明名称 题目表示的获取方法、 设备以及计算机可读 存储介质 (57)摘要 本申请实施例公开了一种题目表示的获取 方法、 设备以及计算机可读存储介质, 方法包括: 获取目标题目中包括的题目描述信息和题目解 答信息, 并将目标题目、 题目描述信息以及题目 解答信息输入题目表示生 成模型。 通过题目表示 生成模型的掩码语 言模型层获取语义特征。 通过 第一文本编码层和第一池化层获得题目描述信 息的第一向量表示, 并通过题目分类层得到题目 分类特征。 通过第二文本编码层和第二池化层获 得题目解答信息的第二向量表 示, 基于第一向量 表示和第二向量表示得到题目结构组成特征。 通 过特征合并层基于语义特征、 题目分类特征和题 目结构组成特征生成融合特征作为题目表示。 采 用本申请, 可提高题目表示的生成效率, 增强题 目表示的适用性。 权利要求书3页 说明书18页 附图6页 CN 115129849 A 2022.09.30 CN 115129849 A 1.一种题目表示的获取 方法, 其特 征在于, 所述方法包括: 获取目标题目中包括的题目描述信 息和题目解答信 息, 所述题目描述信 息包括题干信 息和/或选项信息, 所述题目解答信息包括答案信息和/或解析信息, 将所述目标题目、 所述 题目描述信息以及所述题目解 答信息输入题目表示 生成模型; 通过所述题目表示生成模型中的掩码语言模型层, 基于输入的所述目标题目, 获取所 述目标题目的语义特 征; 通过所述题目表示生成模型中的第一文本编码层和第一池化层获得输入的所述题目 描述信息对应的第一向量表示, 并通过所述题目表示生成模型中的题目分类层, 基于所述 第一向量表示得到所述目标题目的题目分类特 征; 通过所述题目表示生成模型中的第二文本编码层和第二池化层获得输入的所述题目 解答信息对应的第二向量表示, 并基于所述第一向量表示和所述第二向量表示得到所述目 标题目的题目结构组成特 征; 通过所述题目表示生成模型中的特征合并层, 基于所述语义特征、 所述题目分类特征 和所述题目结构组成特征生成所述目标题目的融合特征作为所述目标题目的题目表示, 所 述题目表示用于目标应用的题目聚类和/或相似题目推荐。 2.根据权利要求1所述的方法, 其特征在于, 所述掩码语言模型层中包括第 三文本编码 层和掩码分类层; 所述通过所述题目表示生成模型中的掩码语言模型层, 基于输入的所述 目标题目, 获取 所述目标题目的语义特 征之前, 所述方法还 包括: 将所述目标题目中的一个或者多个目标词语替换为一个或者多个掩码标签, 将所述一 个或者多个掩码标签携带在所述目标题目中输入所述题目表示 生成模型; 所述通过所述题目表示生成模型中的掩码语言模型层, 基于输入的所述目标题目, 获 取所述目标题目的语义特 征包括: 通过所述第三文本编码模型获得所述一个或者多个掩码标签对应的词向量以得到所 述一个或者多个目标词语的词向量; 通过所述掩码分类层基于所述词向量得到的所述一个或者多个掩码标签对应的预测 目标词语作为所述目标题目的语义特 征。 3.根据权利要求2所述的方法, 其特征在于, 所述题目表示生成模型中包括至少一个所 述题目分类层, 所述通过所述题目表示生成模 型中的第一文本编 码层和第一池化层获得输 入的所述题目描述信息对应的第一向量表示, 并通过所述题目表示生成模 型中的题目分类 层, 基于所述第一向量表示得到所述目标题目的题目分类特 征包括: 通过所述题目表示生成模型中的第一文本编码模型得到所述题目描述信息中各词语 对应的词向量, 并通过所述题目表示生成模型中的第一池化层 对所述各词语对应的词向量 进行序列维度的求和以得到所述题目描述信息对应的第一向量表示; 通过所述题目表示生成模型中的任一所述题目分类层基于所述第一向量表示得到所 述目标题目对应的任一分类, 获取通过各个所述题目分类层获得 的各个分类, 并基于所述 各个分类得到所述题目描述信息对应的题目分类特 征。 4.根据权利要求3所述的方法, 其特征在于, 所述通过所述题目表示生成模型中的第 二 文本编码层和第二池化层获得输入的所述题目解 答信息对应的第二向量表示包括: 通过所述题目表示生成模型中的第二文本编码模型得到所述题目解答信息中各词语权 利 要 求 书 1/3 页 2 CN 115129849 A 2对应的词向量, 并通过所述题目表示生成模型中的第二池化层 对所述各词语对应的词向量 进行序列维度的求和以得到所述第二向量表示。 5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述获取所述目标题目中包括的 题目描述信息和题目解 答信息之前, 所述方法还 包括: 基于多个样本题目和所述掩码语言模型层得到所述题目表示生成模型生成所述语义 特征对应的第一损失函数, 基于所述多个样本题目和所述第一文本编码层、 所述第一池化 层和所述题目分类层得到所述题目表示生成模型生成所述题目分类特征对应的第二损失 函数, 并基于所述多个样本题目和所述第一文本编 码层、 所述第一池化层、 所述第二文本编 码层以及所述第二池化层得到所述题目表示生成模型生成所述题目结构组成特征对应的 第三损失函数; 将所述第一损失函数、 所述第 二损失函数以及所述第 三损失函数加权求和得到目标损 失函数, 基于所述目标损失函数和所述多个样本题目对所述题目表示 生成模型进行训练。 6.根据权利要求5所述的方法, 其特征在于, 所述多个样本题目中各个样本题目中至少 包括样本题目描述信息以及样本题目解答信息, 所述基于所述多个样本题目和所述第一文 本编码层、 所述第一池化层、 所述第二文本编码层以及所述第二池化层得到第三损失函数 包括: 将任一样本题目中的所述样本题目描述信息与所述样本题目解答信息设置为所述任 一样本题目的第一训练样本, 将所述任一样本题目中的所述样本题目描述信息与所述多个 样本题目中的剩余样本信息两两配对以构成所述任一样本题目的第二训练样本, 所述剩余 样本信息为所述多个样本题目包括的除所述任一样本题目的所述样本题目解答信息之外 的其他样本题目解 答信息; 基于所述各个样本题目的所述第一训练样本和所述第二训练样本训练所述第一文本 编码层、 所述第一池化层、 所述第二文本编码层和所述第二池化层以获得所述第三损失函 数。 7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 所述通过所述题目表示生成模型 中的特征合并层, 基于所述语义特征、 所述题目分类特征和所述题目结构组成特征生成所 述目标题目的融合特 征作为所述目标题目的题目表示之后, 所述方法还 包括: 获取所述融合特征与多个候选推荐题目中各候选推荐题目对应的候选推荐特征的余 弦相似度, 基于所述融合特征与各候选推荐 特征的余弦相似度从多个候选推荐特征中获取 目标推荐特 征, 将所述目标推荐特 征关联的候选推荐题目作为第一 候选题目; 通过文本相似度匹配从所述多个候选推荐题目中获得与所述目标题目的文本相似度 不小于设定阈值的第二候选题目, 并基于所述第一候选题目和所述第二候选题目得到的所 述目标题目的相似题目, 向目标推送对象发送所述目标题目的相似题目。 8.一种题目表示的获取装置, 其特 征在于, 包括: 获取模块, 用于在接收到目标题目时, 获取所述目标题目中包括的题目描述信息和题 目解答信息, 所述题目描述信息包括题干信息和/或选项信息, 所述题目解答信息包括答案 信息和/或解析信息, 将所述目标题目、 所述题目描述信息以及所述题目解答信息输入题目 表示生成模型; 语义特征生成模块, 用于在所述目标题目输入所述题目表示生成模型时, 通过所述题权 利 要 求 书 2/3 页 3 CN 115129849 A 3

.PDF文档 专利 题目表示的获取方法、设备以及计算机可读存储介质

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 题目表示的获取方法、设备以及计算机可读存储介质 第 1 页 专利 题目表示的获取方法、设备以及计算机可读存储介质 第 2 页 专利 题目表示的获取方法、设备以及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。