专利题目表示的获取方法、设备以及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210641187.8 (22)申请日 2022.06.08 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人易超　李习华　赵学敏　曹云波　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师陈梅君 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06Q 50/20(2012.01) (54)发明名称题目表示的获取方法、设备以及计算机可读存储介质 (57)摘要本申请实施例公开了一种题目表示的获取方法、设备以及计算机可读存储介质，方法包括：获取目标题目中包括的题目描述信息和题目解答信息，并将目标题目、题目描述信息以及题目解答信息输入题目表示生成模型。通过题目表示生成模型的掩码语言模型层获取语义特征。通过第一文本编码层和第一池化层获得题目描述信息的第一向量表示，并通过题目分类层得到题目分类特征。通过第二文本编码层和第二池化层获得题目解答信息的第二向量表示，基于第一向量表示和第二向量表示得到题目结构组成特征。通过特征合并层基于语义特征、题目分类特征和题目结构组成特征生成融合特征作为题目表示。采用本申请，可提高题目表示的生成效率，增强题目表示的适用性。权利要求书3页说明书18页附图6页 CN 115129849 A 2022.09.30 CN 115129849 A 1.一种题目表示的获取方法，其特征在于，所述方法包括：获取目标题目中包括的题目描述信息和题目解答信息，所述题目描述信息包括题干信息和/或选项信息，所述题目解答信息包括答案信息和/或解析信息，将所述目标题目、所述题目描述信息以及所述题目解答信息输入题目表示生成模型；通过所述题目表示生成模型中的掩码语言模型层，基于输入的所述目标题目，获取所述目标题目的语义特征；通过所述题目表示生成模型中的第一文本编码层和第一池化层获得输入的所述题目描述信息对应的第一向量表示，并通过所述题目表示生成模型中的题目分类层，基于所述第一向量表示得到所述目标题目的题目分类特征；通过所述题目表示生成模型中的第二文本编码层和第二池化层获得输入的所述题目解答信息对应的第二向量表示，并基于所述第一向量表示和所述第二向量表示得到所述目标题目的题目结构组成特征；通过所述题目表示生成模型中的特征合并层，基于所述语义特征、所述题目分类特征和所述题目结构组成特征生成所述目标题目的融合特征作为所述目标题目的题目表示，所述题目表示用于目标应用的题目聚类和/或相似题目推荐。 2.根据权利要求1所述的方法，其特征在于，所述掩码语言模型层中包括第三文本编码层和掩码分类层；所述通过所述题目表示生成模型中的掩码语言模型层，基于输入的所述目标题目，获取所述目标题目的语义特征之前，所述方法还包括：将所述目标题目中的一个或者多个目标词语替换为一个或者多个掩码标签，将所述一个或者多个掩码标签携带在所述目标题目中输入所述题目表示生成模型；所述通过所述题目表示生成模型中的掩码语言模型层，基于输入的所述目标题目，获取所述目标题目的语义特征包括：通过所述第三文本编码模型获得所述一个或者多个掩码标签对应的词向量以得到所述一个或者多个目标词语的词向量；通过所述掩码分类层基于所述词向量得到的所述一个或者多个掩码标签对应的预测目标词语作为所述目标题目的语义特征。 3.根据权利要求2所述的方法，其特征在于，所述题目表示生成模型中包括至少一个所述题目分类层，所述通过所述题目表示生成模型中的第一文本编码层和第一池化层获得输入的所述题目描述信息对应的第一向量表示，并通过所述题目表示生成模型中的题目分类层，基于所述第一向量表示得到所述目标题目的题目分类特征包括：通过所述题目表示生成模型中的第一文本编码模型得到所述题目描述信息中各词语对应的词向量，并通过所述题目表示生成模型中的第一池化层对所述各词语对应的词向量进行序列维度的求和以得到所述题目描述信息对应的第一向量表示；通过所述题目表示生成模型中的任一所述题目分类层基于所述第一向量表示得到所述目标题目对应的任一分类，获取通过各个所述题目分类层获得的各个分类，并基于所述各个分类得到所述题目描述信息对应的题目分类特征。 4.根据权利要求3所述的方法，其特征在于，所述通过所述题目表示生成模型中的第二文本编码层和第二池化层获得输入的所述题目解答信息对应的第二向量表示包括：通过所述题目表示生成模型中的第二文本编码模型得到所述题目解答信息中各词语权　利　要　求　书 1/3 页 2 CN 115129849 A 2对应的词向量，并通过所述题目表示生成模型中的第二池化层对所述各词语对应的词向量进行序列维度的求和以得到所述第二向量表示。 5.根据权利要求1 ‑4任一项所述的方法，其特征在于，所述获取所述目标题目中包括的题目描述信息和题目解答信息之前，所述方法还包括：基于多个样本题目和所述掩码语言模型层得到所述题目表示生成模型生成所述语义特征对应的第一损失函数，基于所述多个样本题目和所述第一文本编码层、所述第一池化层和所述题目分类层得到所述题目表示生成模型生成所述题目分类特征对应的第二损失函数，并基于所述多个样本题目和所述第一文本编码层、所述第一池化层、所述第二文本编码层以及所述第二池化层得到所述题目表示生成模型生成所述题目结构组成特征对应的第三损失函数；将所述第一损失函数、所述第二损失函数以及所述第三损失函数加权求和得到目标损失函数，基于所述目标损失函数和所述多个样本题目对所述题目表示生成模型进行训练。 6.根据权利要求5所述的方法，其特征在于，所述多个样本题目中各个样本题目中至少包括样本题目描述信息以及样本题目解答信息，所述基于所述多个样本题目和所述第一文本编码层、所述第一池化层、所述第二文本编码层以及所述第二池化层得到第三损失函数包括：将任一样本题目中的所述样本题目描述信息与所述样本题目解答信息设置为所述任一样本题目的第一训练样本，将所述任一样本题目中的所述样本题目描述信息与所述多个样本题目中的剩余样本信息两两配对以构成所述任一样本题目的第二训练样本，所述剩余样本信息为所述多个样本题目包括的除所述任一样本题目的所述样本题目解答信息之外的其他样本题目解答信息；基于所述各个样本题目的所述第一训练样本和所述第二训练样本训练所述第一文本编码层、所述第一池化层、所述第二文本编码层和所述第二池化层以获得所述第三损失函数。 7.根据权利要求1 ‑6任一项所述的方法，其特征在于，所述通过所述题目表示生成模型中的特征合并层，基于所述语义特征、所述题目分类特征和所述题目结构组成特征生成所述目标题目的融合特征作为所述目标题目的题目表示之后，所述方法还包括：获取所述融合特征与多个候选推荐题目中各候选推荐题目对应的候选推荐特征的余弦相似度，基于所述融合特征与各候选推荐特征的余弦相似度从多个候选推荐特征中获取目标推荐特征，将所述目标推荐特征关联的候选推荐题目作为第一候选题目；通过文本相似度匹配从所述多个候选推荐题目中获得与所述目标题目的文本相似度不小于设定阈值的第二候选题目，并基于所述第一候选题目和所述第二候选题目得到的所述目标题目的相似题目，向目标推送对象发送所述目标题目的相似题目。 8.一种题目表示的获取装置，其特征在于，包括：获取模块，用于在接收到目标题目时，获取所述目标题目中包括的题目描述信息和题目解答信息，所述题目描述信息包括题干信息和/或选项信息，所述题目解答信息包括答案信息和/或解析信息，将所述目标题目、所述题目描述信息以及所述题目解答信息输入题目表示生成模型；语义特征生成模块，用于在所述目标题目输入所述题目表示生成模型时，通过所述题权　利　要　求　书 2/3 页 3 CN 115129849 A 3

专利 题目表示的获取方法、设备以及计算机可读存储介质

专利题目表示的获取方法、设备以及计算机可读存储介质