专利一种问句生成的方法、系统及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211212765.2 (22)申请日 2022.09.30 (71)申请人太保科技有限公司地址 200010 上海市黄浦区中山南路1号1 1 层(名义楼层)1 1V6室 (72)发明人张士杰　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师曹伟 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) (54)发明名称一种问句生成的方法、系统及存储介质 (57)摘要本申请公开了一种问句生成的方法、系统及存储介质。该方法基于知识信息，利用问句生成模型生成问句。基于问句生成模型生成的问句，通过判别系统获得判别结果及问句知识信息对，通过判别系统对判别结果运算，获得目标奖励。然后所述判别系统将问句知识信息对和目标奖励返回给问句生成模型；以返回给所述问句生成模型中的问句知识信息对中对应的目标奖励符合预设要求的问句知识信息对作为训练数据，基于所述训练数据，通过强化学习的方式对问句生成模型进行训练，对问句生成模型进行更新以生成新的问句。在本申请中还公开了一种问句生成的系统及存储介质。在本申请实施例中，实现了问句的生成。权利要求书2页说明书11页附图3页 CN 115510205 A 2022.12.23 CN 115510205 A 1.一种问句生成的方法，其特征在于，所述方法包括：基于知识信息，利用问句生成模型生成问句；基于所述问句生成模型生成的问句，通过判别系统获得判别结果及问句知识信息对；通过所述判别系统对所述判别结果运算，获得目标奖励；所述判别系统将所述问句知识信息对和所述目标奖励返回给问句生成模型；以返回给所述问句生成模型中的问句知识信息对中对应的目标奖励符合预设要求的问句知识信息对作为训练数据；基于所述训练数据，通过强化学习的方式对问句生成模型进行训练，对问句生成模型进行更新；以更新后的问句生成模型生成新的问句。 2.根据权利要求1所述的方法，其特征在于，所述判别系统包括：问答系统、知识库信息 ‑问句相似度模型和语法正误判断模型；所述基于所述问句生成模型生成的问句，通过所述判别系统获得判别结果，具体包括：知识库信息‑问句相似度模型通过判断输入所述问句生成模型的知识信息与所述基于问句生成模型生成的问句之间的相似度，获得第一奖励；语法正误判断模型通过判断输入的问句的语法是否正确，获得第二奖励；问答系统查询所述问句生成模型生成的问句对应的答案，通过判断所述答案与知识信息是否匹配，获得第三奖励；所述通过所述判别系统对所述判别结果运算，获得目标奖励，具体包括：根据所述第一奖励、所述第二奖励和所述第三奖励获得目标奖励。 3.根据权利要求2所述的方法，其特征在于，所述根据所述第一奖励、所述第二奖励和所述第三奖励获得目标奖励包括：根据所述第一奖励、所述第二奖励和所述第三奖励计算加权平均值，将所述加权平均值作为所述目标奖励。 4.根据权利要求1所述的方法，其特征在于，所述知识信息存储于所述问答系统的知识库内，所述知识信息为具有头尾实体且实体间存在确定的联系的一组信息。 5.根据权利要求1所述的方法，其特征在于，所述问句包括：所述答案与所述知识信息匹配的问句，或，所述答案与所述知识信息不匹配的问句。 6.根据权利要求1所述的方法，其特征在于，所述符合预设要求的问句知识信息对，包括：对应的目标奖励为所述目标奖励的取值范围内的最大值。 7.一种问句生成的系统，其特征在于，包括：问句生成模型和判别系统，其中判别系统包括问答系统，问答系统包括知识库；所述问句生成模型，用于基于知识信息，利用问句生成模型生成问句：所述问答系统，用于从所述问句生成模型获取问句，所述问答系统隶属于判别系统；所述判别系统，用于基于问句生成模型生成的问句获得判别结果，对所述判别结果运算获得目标奖励，并生成问句知识信息对，将所述问句知识信息对和所述目标奖励返回给问句生成模型；其中，返回给所述问句生成模型中的问句知识信息对中对应的目标奖励符权　利　要　求　书 1/2 页 2 CN 115510205 A 2合预设要求的问句知识信息对作为训练数据；所述问句生成模型，还用于基于所述训练数据，通过强化学习的方式训练并更新；以更新后的问句生成模型生成新的问句。 8.根据权利要求7 所述的系统，其特征在于，所述判别系统还包括：知识库信息 ‑问句相似度模型和语法正误判断模型；所述知识库信息 ‑问句相似度模型，用于通过判断输入所述问句生成模型的知识信息与所述基于问句生成模型生成的问句之间的相似度，获得第一奖励；所述语法正误判断模型，用于通过判断输入的问句的语法是否正确，获得第二奖励；所述问答系统，用于查询所述问句生成模型生成的问句对应的答案，通过判断所述答案与知识信息是否匹配，获得第三奖励；所述判别系统，具体用于：根据所述第一奖励、所述第二奖励和所述第三奖励获得目标奖励。 9.根据权利要求8所述的系统，其特征在于，所述判别系统具体用于：根据所述第一奖励、所述第二奖励和所述第三奖励的加权平均值，将所述加权平均值作为所述目标奖励。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有问句生成的实现程序，所述问句生成的实现程序被处理器执行时实现如权利要求1 ‑6任意一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115510205 A 3

专利 一种问句生成的方法、系统及存储介质

专利一种问句生成的方法、系统及存储介质