全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210535562.0 (22)申请日 2022.05.17 (71)申请人 北京飞象星球科技有限公司 地址 100102 北京市朝阳区广顺 南大街8号 院1号楼1层101内4层F01单 元内02号 (72)发明人 阎覃 赵薇 张天宇 柳景明  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 何定润 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (54)发明名称 选择题解题模型训练方法及装置 (57)摘要 本说明书提供选择题解题模型训练方法及 装置, 其中所述选择题解题模型训练方法包括: 获取选择题样本数据集, 并对所述选择题样本数 据集中的选择题样本数据的选项标识进行检测; 根据检测结果对所述选择题样本数据集中的选 择题样本数据进行重构, 获得目标选择题样本数 据集; 基于所述目标选择题样 本数据集对包含编 码层的选 择题解题模型进行训练, 直至获得符合 训练条件的目标选择题解题模型。 通过正确性较 高的目标选择题样本数据集训练得到目标选择 题解题模型, 提升了选择题解题模 型的解题准确 率。 权利要求书3页 说明书15页 附图5页 CN 114925166 A 2022.08.19 CN 114925166 A 1.一种选择题解题模型训练方法, 其特 征在于, 包括: 获取选择题样本数据集, 并对所述选择题样本数据集中的选择题样本数据的选项标识 进行检测; 根据检测结果对所述选择题样本数据集中的选择题样本数据进行重构, 获得目标选择 题样本数据集; 基于所述目标选择题样本数据集对包含编码层的选择题解题模型进行训练, 直至获得 符合训练条件的目标选择题解题模型。 2.如权利要求1所述的方法, 其特征在于, 根据检测结果对所述选择题样本数据集中的 选择题样本数据进行重构, 获得目标选择题样本数据集, 包括: 获取携带有选项标识的第 一选择题样本数据对应的选项数据, 并基于所述第 一选择题 样本数据和所述选项数据组成第一目标选择题样本数据; 针对未携带有选项标识的第 一选择题样本数据添加空缺标识, 获得第 二目标选择题样 本数据; 基于所述第一目标选择题样本数据和所述第二目标选择题样本数据生成目标选择题 样本数据集。 3.如权利要求2所述的方法, 其特征在于, 基于所述第 一目标选择题样本数据和所述第 二目标选择题样本数据生成目标选择题样本数据集, 包括: 基于所述第一目标选择题样本数据和所述第二目标选择题样本数据生成初始选择题 样本数据集; 确定所述初始选择题样本数据集中包 含的初始选择题样本数据分别对应的数据长度; 选择大于等于预设长度阈值的数据长度对应的初始选择题样本数据组成所述目标选 择题样本数据集。 4.如权利要求2所述的方法, 其特征在于, 针对未携带有选项标识的第 一选择题样本数 据添加空缺标识, 获得第二目标选择题样本数据, 包括: 针对未携带有选项标识的第 一选择题样本数据添加空缺标识, 获得第 二初始选择题样 本数据; 确定所述第二初始选择题样本数据的空缺标识占比; 选择小于等于预设占比阈值的第 二初始选择题样本数据, 作为所述第 二目标选择题样 本数据。 5.如权利要求3所述的方法, 其特征在于, 选择大于等于预设长度阈值的数据长度对应 的初始选择题样本数据组成所述目标选择题样本数据集, 包括: 选择大于等于预设长度阈值的数据长度对应的初始选择题样本数据组成中间选择题 样本数据集; 根据预设分词规则对中间选择题样本数据集中包含的中间选择题样本数据进行分词 处理, 获得目标选择题样本数据集。 6.如权利要求5所述的方法, 其特征在于, 根据预设分词规则对中间选择题样本数据集 中包含的中间选择题样本数据进行分词处 理, 获得目标选择题样本数据集, 包括: 根据预设分词规则对中间选择题样本数据集中包含的中间选择题样本数据进行分词 处理, 得到当前选择题样本数据集;权 利 要 求 书 1/3 页 2 CN 114925166 A 2基于预设去重算法计算所述当前选择题样本数据集中的每个当前选择题样本数据之 间的相似度, 并根据每 个当前选择题样本数据对应的相似度确定数据去重信息; 根据预设语义清洗算法计算所述当前选择题样本数据集中的每个当前选择题样本数 据的困惑度, 并根据每 个当前选择题样本数据对应的困惑度确定语义清洗信息; 基于所述数据去重信息和语义清洗信息提取所述当前选择题样本数据集合中的当前 目标选择题样本数据, 并基于每 个当前目标选择题样本数据生成目标选择题样本数据集。 7.如权利要求1所述的方法, 其特 征在于, 获取选择题样本数据集, 包括: 在预设题库中筛 选选择题题目, 并提取选择题 题目中的选择题 题目内容; 删除每个选择题题目内容中的非法字符和/或采用标准字符替换所述选择题题目内容 中的非标准字符, 获得选择题样本数据; 由每个选择题样本数据生成选择题样本数据集。 8.如权利要求1所述的方法, 其特征在于, 基于所述目标选择题样本数据集对包含编码 层的选择题解题模型进行训练, 直至获得符合训练条件的目标选择题解题模型, 包括: 确定包含编码层的待训练选择题解题模型, 并将所述目标选择题样本数据集中的目标 选择题样本数据输入至所述待训练选择题解题模型; 通过所述待训练选择题解题模型的掩码模块对目标选择题样本数据中的待掩码数据 进行掩码处 理, 获得空缺选择题样本数据; 基于所述待训练选择题解题模型的预测模块对所述空缺选择题样本数据进行处理, 并 获取所述待训练选择题解题模型输出的预测选择 结果; 根据所述预测选择结果和所述待掩码数据对所述待训练选择题解题模型的模型参数 进行调整, 获得目标选择题解题模型。 9.如权利要求8所述的方法, 其特征在于, 根据所述预测选择结果和所述待掩码数据对 所述待训练选择题解题模型的模型参数进行调整, 获得目标选择题解题模型, 包括: 根据所述预测选择结果和所述待掩码数据对所述待训练选择题解题模型的模型参数 进行调整, 获得训练后的待训练选择题解题模型; 获取选择题题目数据集, 其中, 所述选择题题目数据集包括: 选择题题目和所述选择题 题目的选择 结果标识; 将所述选择题题目输入至所述训练后的待训练选择题解题模型中, 获得选择预测结 果, 并基于所述选择结果标识和所述选择预测结果对所述待训练选择题解题模型进行微 调; 在达到微调停止条件的情况 下, 获得目标选择题解题模型。 10.一种选择题解题方法, 其特 征在于, 包括: 接收选择题解题请求, 确定待解 答选择题; 将所述待解答选择题输入至如权利要求1 ‑9任意一项所述方法的目标选择题解题模 型; 获取所述目标选择题输出的所述待解 答选择题对应的选择答案 。 11.一种选择题解题模型训练装置, 其特 征在于, 包括: 获取模块, 被配置为获取选择题样本数据集, 并对所述选择题样本数据集中的选择题 样本数据的选项标识进行检测;权 利 要 求 书 2/3 页 3 CN 114925166 A 3

.PDF文档 专利 选择题解题模型训练方法及装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 选择题解题模型训练方法及装置 第 1 页 专利 选择题解题模型训练方法及装置 第 2 页 专利 选择题解题模型训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。