说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111670508.9 (22)申请日 2021.12.31 (71)申请人 浙江大华 技术股份有限公司 地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人 岳昌洁 张锦铖 黄惠祥 史巍  林聚财 殷俊  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 何倚雯 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/289(2020.01) (54)发明名称 文本生成模型的训练方法、 目标语料扩充 方 法及相关装置 (57)摘要 本申请公开了一种文本生成模型的训练方 法、 目标语料扩充方法及相关装置。 文本生成模 型的训练方法包括: 获取样本语料; 对样本语料 进行分词处理, 并根据分词处理结果, 生成统计 语言模型; 利用文本生成模型的生成器生成目标 文本; 根据样本语料利用文本生成模 型的判别器 对目标文本进行判别, 输出判别结果, 并根据判 别结果得到对抗损失函数; 利用统计语 言模型获 取目标文本的困惑度, 并根据困惑度确定惩罚 项; 将对抗损失函数和惩罚项进行叠加 后得到文 本生成模型的目标损失函数, 并利用目标损失函 数对文本生成模 型进行训练, 得到训练后的文本 生成模型。 上述方案, 能够利用现有语料库来指 导文本生 成模型的训练, 提升文本生成模型的性 能。 权利要求书2页 说明书9页 附图6页 CN 114462570 A 2022.05.10 CN 114462570 A 1.一种文本生成模型的训练方法, 其特 征在于, 所述文本生成模型的训练方法包括: 获取样本语料; 对所述样本语料进行分词处 理, 并根据所述分词处 理结果, 生成统计 语言模型; 利用文本生成模型的生成器生成目标文本; 根据所述样本语料利用所述文本生成模型的判别器对所述目标文本进行判别, 输出判 别结果, 并根据所述判别结果得到对抗损失函数; 利用所述统计 语言模型获取 所述目标文本的困惑度, 并根据所述困惑度确定惩罚项; 将所述对抗损失函数和所述惩罚项进行叠加后得到所述文本生成模型的目标损失函 数, 并利用所述目标损失函数对所述文本生成模型进行训练, 得到训练后的文本生成模型。 2.根据权利要求1所述的文本生成模型的训练方法, 其特征在于, 所述对所述样本语料 进行分词处 理, 并根据所述分词处 理结果, 生成统计 语言模型, 包括: 利用第一分词方法对所述样本语料进行分词操作, 得到第一分词结果; 利用第二分词方法对所述样本语料进行分词操作, 得到第二分词结果; 将所述第一分词结果和所述第 二分词结果取并集来作为所述分词处理结果, 并统计所 述分词处 理结果中的词频, 生成所述统计 语言模型。 3.根据权利要求2所述的文本生成模型的训练方法, 其特征在于, 所述第 一分词方法包 括基于词典的方法; 所述利用第一分词方法对所述样本语料进行分词操作, 得到第一分词结果, 包括: 利用所述基于词典的方法, 采用正向最大匹配算法来对所述样本语料进行分词操作, 得到第一分词结果。 4.根据权利要求2所述的文本生成模型的训练方法, 其特征在于, 所述第 二分词方法包 括基于长短期记 忆网络的方法; 所述利用第二分词方法对所述样本语料进行分词操作, 得到第二分词结果, 包括: 对所述样本语料进行词嵌入处理, 将所述样本语料中每个句子的每个词映射成一个向 量, 训练词向量, 使每 个词向量的维度为固定维度, 以将每 个句子处 理为二维矩阵; 根据所述 二维矩阵统计所述样本语料中的词频并排序, 为每 个词生成一个索引; 将所述样本语料中的每个句子划分为长度为n ‑gram的词对, 并根据每个词生成的索引 将所述词对转换成词索引; 利用转换成词索引后的所述样本语料对所述长短期记忆网络进行训练, 得到训练后的 长短期记 忆网络; 利用所述训练后的长短期记忆网络对所述样本语料进行分词操作, 得到第二分词结 果。 5.根据权利要求1所述的文本生成模型的训练方法, 其特征在于, 所述利用文本生成模 型的生成器生成目标文本, 包括: 统计所述样本语料中每个句子的首个词的频率, 并将词频中最高的前N个词作为起始 列表; 根据所述起始列表选择起始词, 并通过所述生成器计算得到之后的所有词, 直到遇到 结束符号, 生成新的句子以作为所述目标文本 。 6.根据权利要求1所述的文本生成模型的训练方法, 其特征在于, 所述根据所述样本语权 利 要 求 书 1/2 页 2 CN 114462570 A 2料利用所述文本生成模型 的判别器对所述 目标文本进行判别, 输出判别结果, 并根据所述 判别结果得到对抗损失函数, 包括: 将所述样本语料中每个句子的每个词通过编码和嵌入映射成一个定维向量, 以将每个 句子表示成一个二维矩阵; 其中, 所述二维矩阵中的每一列由该句 子中对应位置的词的词 向量构成; 通过所述判别器对所述目标文本进行卷积和池化操作, 以提取所述目标文本的句子特 征; 根据所述样本语料对应的二维矩阵, 对所述目标文本的句子特征进行判别, 输出所述 目标文本属于真实语料的概 率的判别结果, 并根据所述判别结果得到所述对抗损失函数。 7.根据权利要求1所述的文本生成模型的训练方法, 其特征在于, 所述利用所述统计语 言模型获取 所述目标文本的困惑度, 并根据所述困惑度确定惩罚项, 包括: 利用所述统计语言模型计算所述生成器生成的所述目标文本的困惑度, 将所述困惑度 乘以一个惩罚系数后作为所述 惩罚项。 8.一种目标语料扩充方法, 其特 征在于, 所述目标语料扩充方法包括: 对所述目标语料进行文本清洗, 得到预处 理后的目标语料; 利用文本生成模型对所述预处 理后的目标语料进行文本扩充; 其中, 所述文本生成模型是通过权利要求1至7任一项所述的文本生成模型的训练方法 训练得到的。 9.一种文本生成模型的训练装置, 其特 征在于, 所述文本生成模型的训练装置包括: 获取模块, 所述获取模块用于获取样本语料; 分词模块, 所述分词模块用于对所述样本语料进行分词处理, 并根据所述分词处理结 果, 生成统计 语言模型; 生成模块, 所述 生成模块用于利用文本生成模型的生成器生成目标文本; 判别模块, 所述判别模块用于根据 所述样本语料利用所述文本生成模型的判别器对所 述目标文本进行判别, 输出判别结果, 并根据所述判别结果得到对抗损失函数; 确定模块, 所述确定模块用于利用所述统计语言模型获取所述目标文本的困惑度, 并 根据所述困惑度确定惩罚项; 训练模块, 所述训练模块用于将所述对抗损失函数和所述惩罚项进行叠加后得到所述 文本生成模型 的目标损失函数, 并利用所述 目标损失函数对所述文本生成模型进行训练, 得到训练后的文本生成模型。 10.一种电子设备, 其特 征在于, 所述电子设备包括相互连接的处 理器和存 储器; 所述存储器用于存储程序指令, 所述处理器用于执行所述程序指令以实现如权利要求 1‑7任一项所述的文本生成模型的训练方法, 或权利要求8所述的目标语料扩充方法。 11.一种计算机可读存储介质, 其上存储有程序指令, 其特征在于, 所述程序指令被处 理器执行时实现权利要求1至7任一项所述的文本生成模型 的训练方法, 或权利要求8所述 的目标语料扩充方法。权 利 要 求 书 2/2 页 3 CN 114462570 A 3

.PDF文档 专利 文本生成模型的训练方法、目标语料扩充方法及相关装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本生成模型的训练方法、目标语料扩充方法及相关装置 第 1 页 专利 文本生成模型的训练方法、目标语料扩充方法及相关装置 第 2 页 专利 文本生成模型的训练方法、目标语料扩充方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:51:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。