全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210981217.X (22)申请日 2022.08.16 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 刘佳瑞 王世朋 姚海申  (74)专利代理 机构 深圳市世联合知识产权代理 有限公司 4 4385 专利代理师 刘畅 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种端到端模型训练方法、 装置、 计算机设 备及存储介质 (57)摘要 本申请实施例属于人工智能的自然语言处 理技术领域, 涉及一种适用于多中文医疗语言处 理任务的端到端模型训练方法、 装置、 计算机设 备及存储介质。 此外, 本申请还涉及区块链 技术, 用户的目标序列模型可存储于区块链中。 本申请 根据Seq2seq框架的mT5 ‑small模型创 建初始序 列模型, 并通过大量的医疗语料数据针对实体识 别任务以及尾部预测任务进行预训练, 使得预训 练后的序列模型可以学习到隐藏于其他任务的 医疗知识, 有效提高多中文医疗语 言处理任务的 准确性。 权利要求书3页 说明书12页 附图10页 CN 115438149 A 2022.12.06 CN 115438149 A 1.一种适用于多中文医疗语言处理任务的端到端模型训练方法, 其特征在于, 包括下 述步骤: 获取与医疗领域相对应的医疗语料 数据; 对所述医疗语料 数据进行 预处理操作, 得到训练语料 数据; 对所述训练语料数据进行实体匹配操作, 得到训练语料实体, 其中, 所述训练语料实体 包括头部实体、 实体关系以及尾部实体; 根据Seq2seq框架的mT5 ‑small模型创建初始序列模型; 根据所述训练语料数据、 实体识别软提示以及实体识别硬提示构建实体识别训练数 据; 将所述实体识别训练数据作为输入数据、 所述训练语料实体作为标签信 息对所述初始 序列模型进行实体识别训练操作; 将所述头部实体、 所述实体关系、 尾部实体预测软提示以及尾部实体预测硬提示构建 尾部预测训练数据; 将所述尾部预测训练数据作为输入数据、 所述尾部实体作为标签信 息对所述初始序列 模型进行尾部预测训练操作; 将完成所述实体识别训练操作以及所述尾部预测训练操作后的原始序列模型作为目 标序列模型。 2.根据权利要求1所述的适用于多中文医疗语言处理任务的端到端模型训练方法, 其 特征在于, 所述医疗语料数据还包括携带有文章标题以及文章内容的医疗文章数据, 在所 述根据Seq2seq框架的mT5 ‑small模型创建初始序列模 型的步骤之后, 所述将完成所述实体 识别训练操作以及所述尾部预测训练操作后的原始序列模型作为目标序列模型的步骤之 前, 所述方法还 包括下述 步骤: 根据所述文章内容、 文章总结 软提示以及文章总结硬提 示构建文章总结训练数据; 将所述文章总结训练数据作为输入数据、 所述文章标题作为标签信 息对所述初始序列 模型进行文章总结训练操作; 所述将完成所述实体识别训练操作以及所述尾部预测训练操作后的原始序列模型作 为目标序列模型的步骤, 具体包括下述 步骤: 将完成所述实体识别训练操作、 所述尾部预测训练操作以及所述文章总结训练操作后 的原始序列模型作为所述目标序列模型。 3.根据权利要求1所述的适用于多中文医疗语言处理任务的端到端模型训练方法, 其 特征在于, 所述对所述医疗语料数据进 行预处理操作, 得到训练语料数据的步骤, 具体包括 下述步骤: 根据Jaccard相似度算法对所述医疗语料 数据进行相似文本去重操作; 根据正则匹配算法对所述医疗语料数据中噪声较大的文本进行删除操作, 得到所述训 练语料数据。 4.根据权利要求1所述的适用于多中文医疗语言处理任务的端到端模型训练方法, 其 特征在于, 所述医疗语料数据包括携带有医疗提问信息 以及医疗回答信息的医疗问答信 息, 在所述根据Seq2seq框架的mT5 ‑small模型创建初始序列模型的步骤之后, 所述将完成 所述实体识别训练操作以及所述尾部预测训练操作后的原始序列模型作为目标序列模型权 利 要 求 书 1/3 页 2 CN 115438149 A 2的步骤之前, 所述方法还 包括下述 步骤: 根据所述医疗提问信息、 医疗问答软提示以及医疗问答硬提示构建医疗问答训练数 据; 将所述医疗问答训练数据作为输入数据、 所述医疗回答信 息作为标签信 息对所述初始 序列模型进行医疗问答训练操作; 所述将完成所述实体识别训练操作以及所述尾部预测训练操作后的原始序列模型作 为目标序列模型的步骤, 具体包括下述 步骤: 将完成所述实体识别训练操作、 所述尾部预测训练操作以及所述医疗问答训练操作后 的原始序列模型作为所述目标序列模型。 5.根据权利要求4所述的适用于多中文医疗语言处理任务的端到端模型训练方法, 其 特征在于, 所述对所述医疗语料数据进 行预处理操作, 得到训练语料数据的步骤, 具体包括 下述步骤: 判断所述医疗问答信息是否存在歧义词汇; 若不存在所述歧义词汇, 则将所述医疗语料 数据作为所述训练语料 数据; 若存在所述歧义词汇, 则获取与所述歧义词汇上 下文相关联的关联文本信息; 将所述关联文本信 息输入至语义分析模型进行词义识别操作, 得到所述歧义词汇的真 实词义信息; 将所述医疗问答信 息中的所述歧义词汇替换成所述真实词义信 息, 得到所述训练语料 数据。 6.根据权利要求5所述的适用于多中文医疗语言处理任务的端到端模型训练方法, 其 特征在于, 在所述将所述关联文本信息输入至语义分析模型进行词义识别操作, 得到所述 歧义词汇的真实词义信息的步骤之前, 还 包括: 在所述本地数据库中获取样本文本, 并确定所述样本文本中包 含的每个分词; 基于待训练的语义分析模型确定所述每 个分词对应的词向量; 在所述本地数据库中获取语义属性, 根据 所述待训练的语义分析模型中包含所述语义 属性对应的注意力矩阵, 以及所述每个分词对应的词向量, 确定所述样本文本涉及所述语 义属性的第一特 征表示向量; 根据所述待训练的语义分析模型中包含的用于表示不同语义属性之间的相关性的自 注意力矩阵, 以及所述第一特征表示向量, 确定所述样本文本涉及所述语义属 性的第二特 征表示向量; 根据所述待训练 的语义分析模型以及所述第 二特征表示向量, 确定所述待训练 的语义 训练模型输出的分类结果, 所述分类结果包括所述样本文本所属的语义属性以及所述样本 文本所属的语义属性对应的情感极性; 根据所述分类结果和所述样本文本预设的标注, 对所述语义分析模型中的模型参数进 行调整, 得到所述语义分析模型。 7.一种适用于多中文医疗语言处 理任务的端到端模型训练装置, 其特 征在于, 包括: 数据获取模块, 用于获取与医疗领域相对应的医疗语料 数据; 预处理模块, 用于对所述医疗语料 数据进行 预处理操作, 得到训练语料 数据; 实体匹配模块, 用于对所述训练语料数据进行实体匹配操作, 得到训练语料实体, 其权 利 要 求 书 2/3 页 3 CN 115438149 A 3

PDF文档 专利 一种端到端模型训练方法、装置、计算机设备及存储介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种端到端模型训练方法、装置、计算机设备及存储介质 第 1 页 专利 一种端到端模型训练方法、装置、计算机设备及存储介质 第 2 页 专利 一种端到端模型训练方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。