专利数据处理方法、用于输出知识内容的方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111673243.8 (22)申请日 2021.12.31 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人徐伟　程鸣权　杨海涛　步君昭　蒋俊翔　刘欢　骆金昌　何伯磊　和为　陈坤斌　毛丽媛　周敏　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 代理人王达佐　马晓亚 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/28(2019.01) G06F 16/2458(2019.01)G06K 9/62(2022.01) (54)发明名称数据处理方法、用于输出知识内容的方法及装置 (57)摘要本公开提供了用于数据处理方法、用于输出知识内容的方法及装置，涉及人工智能技术领域，具体为内容推荐技术领域。具体实现方案为：获取样本知识内容集合以及样本知识内容集合中各个样本知识内容对应的样本标注类别；从样本知识内容集合中确定初始样本知识内容；对待训练模型执行以下模型训练步骤：基于初始样本知识内容和待训练模型，确定初始样本知识内容对应的预测类别；响应于确定预测类别和初始样本知识内容对应的样本标注类别满足预设的收敛条件，将待训练模型确定为训练完成的权重生成模型。本实现方式可以提高知识内容展示的智能化程度。权利要求书3页说明书9页附图6页 CN 114329219 A 2022.04.12 CN 114329219 A 1.一种数据处理方法，包括：获取样本知识内容集合以及所述样本知识内容集合中各个样本知识内容对应的样本标注类别；从所述样本知识内容集合中确定初始样本知识内容；对待训练模型执行以下模型训练步骤：基于所述初始样本知识内容和所述待训练模型，确定所述初始样本知识内容对应的预测类别；响应于确定所述预测类别和所述初始样本知识内容对应的样本标注类别满足预设的收敛条件，将所述待训练模型确定为训练完成的权重生成模型。 2.根据权利要求1所述的方法，还包括：响应于确定所述预测类别和所述初始样本知识内容对应的样本标注类别不满足所述预设的收敛条件，从所述样本知识内容集合中重新确定所述初始样本知识内容，并重复执行所述模型训练步骤。 3.根据权利要求1所述的方法，其中，所述样本标注类别包括正样本或者负样本；以及所述获取样本知识内容集合以及所述样本知识内容集合中各个样本知识内容对应的样本标注类别，包括：基于预设的数据挖掘维度，从预设的知识内容库中确定正样本知识内容以及负样本知识内容。 4.根据权利要求3所述的方法，其中，所述预设的数据挖掘维度包括以下至少一项：资讯维度、非资讯维度、输出对象维度、技能标签维度。 5.根据权利要求4所述的方法，其中，所述基于预设的数据挖掘维度，从预设的知识内容库中确定正样本知识内容以及负样本知识内容，包括：基于所述资讯维度，确定目标资讯主题；从所述预设的知识内容库中，基于与所述目标资讯主题相匹配的资讯数据，确定正样本知识内容；从所述预设的知识内容库中，基于非资讯数据以及与所述目标资讯主题不相匹配的资讯数据，确定负样本知识内容。 6.根据权利要求4所述的方法，其中，所述基于预设的数据挖掘维度，从预设的知识内容库中确定正样本知识内容以及负样本知识内容，包括：基于所述非资讯维度，确定目标非资讯主题；从所述预设的知识内容库中，基于与所述目标非资讯主题相匹配的非资讯数据，确定正样本知识内容；从所述预设的知识内容库中，基于资讯数据以及与所述目标非资讯主题不相匹配的非资讯数据，确定负样本知识内容。 7.根据权利要求4所述的方法，其中，所述基于预设的数据挖掘维度，从预设的知识内容库中确定正样本知识内容以及负样本知识内容，包括：基于所述输出对象维度，确定至少一个输出对象类别；从所述预设的知识内容库中，对于每个输出对象类别，确定该输出对象类别对应的正样本知识内容以及负样本知识内容。 8.根据权利要求4所述的方法，其中，所述基于预设的数据挖掘维度，从预设的知识内权　利　要　求　书 1/3 页 2 CN 114329219 A 2容库中确定正样本知识内容以及负样本知识内容，包括：基于所述技能标签维度，确定各个初始技能标签；对所述各个初始技能标签进行聚类，得到聚类后的各个目标技能标签；从所述预设的知识内容库中，确定与每个目标技能标签对应的正样本知识内容以及负样本知识内容。 9.一种用于输出知识内容的方法，包括：获取知识内容集合；基于权利要求1至8任一项所述的数据处理方法得到的权重生成模型，确定所述知识内容集合中各个知识内容对应的权重；基于各个知识内容对应的权重，确定输出顺序；基于所述输出顺序，输出各个知识内容。 10.一种数据处理装置，包括：样本获取单元，被配置成获取样本知识内容集合以及所述样本知识内容集合中各个样本知识内容对应的样本标注类别；初始样本确定单元，被配置成从所述样本知识内容集合中确定初始样本知识内容；模型训练单元，被配置成对待训练模型执行以下模型训练步骤：基于所述初始样本知识内容和所述待训练模型，确定所述初始样本知识内容对应的预测类别；响应于确定所述预测类别和所述初始样本知识内容对应的样本标注类别满足预设的收敛条件，将所述待训练模型确定为训练完成的权重生成模型。 11.根据权利要求10所述的装置，其中，所述模型训练单元进一步被配置成：响应于确定所述预测类别和所述初始样本知识内容对应的样本标注类别不满足所述预设的收敛条件，从所述样本知识内容集合中重新确定所述初始样本知识内容，并重复执行所述模型训练步骤。 12.根据权利要求10所述的装置，其中，所述样本标注类别包括正样本或者负样本；以及所述样本获取单元进一步被配置成：基于预设的数据挖掘维度，从预设的知识内容库中确定正样本知识内容以及负样本知识内容。 13.根据权利要求12所述的装置，其中，所述预设的数据挖掘维度包括以下至少一项：资讯维度、非资讯维度、输出对象维度、技能标签维度。 14.根据权利要求13所述的装置，其中，所述样本获取单元进一步被配置成：基于所述资讯维度，确定目标资讯主题；从所述预设的知识内容库中，基于与所述目标资讯主题相匹配的资讯数据，确定正样本知识内容；从所述预设的知识内容库中，基于非资讯数据以及与所述目标资讯主题不相匹配的资讯数据，确定负样本知识内容。 15.根据权利要求13所述的装置，其中，所述样本获取单元进一步被配置成：基于所述非资讯维度，确定目标非资讯主题；从所述预设的知识内容库中，基于与所述目标非资讯主题相匹配的非资讯数据，确定权　利　要　求　书 2/3 页 3 CN 114329219 A 3

专利 数据处理方法、用于输出知识内容的方法及装置

专利数据处理方法、用于输出知识内容的方法及装置