全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210275746.8 (22)申请日 2022.03.21 (71)申请人 浙江大华 技术股份有限公司 地址 310053 浙江省杭州市滨江区滨安路 1187号 (72)发明人 郑燕玲 范鹏召 徐耀彬 钱佳佳  刘伟棠 陈立力 周明伟  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 杜晶 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/186(2020.01) G06F 40/211(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06N 5/02(2006.01) (54)发明名称 一种语料 数据生成方法、 装置、 设备及 介质 (57)摘要 本申请公开了一种语料数据生成方法、 装 置、 设备及介质, 用以解决现有获取大量的语料 数据所耗费的时间长的问题。 由于在生成语料数 据的过程中, 可以基于获取到的语料数据模板, 确定该语料数据模板对应的三元 组图结构, 使 得 后续可以基于预先配置的知识库中包含的属性, 对该三元 组图结构进行填充, 使得后续可以根据 填充后的三元组图结构中未标识有意图标识的 属性, 生成大量的语料数据, 从而实现充分利用 知识库中存储的数据, 实现语料数据的扩充, 极 大地丰富了语料使用的词语, 且降低了生成语料 数据所耗费的时间。 权利要求书2页 说明书14页 附图3页 CN 114637860 A 2022.06.17 CN 114637860 A 1.一种语料 数据生成方法, 其特 征在于, 所述方法包括: 基于获取到的语料 数据模板, 确定所述语料 数据模板对应的三元组图结构; 基于预先配置的知识库中包含的属性, 对所述三元组图结构进行填充; 其中, 所述属性 包括各个实体的实体属性以及各个实体之间的实体关系; 根据填充后的三元组图结构中包 含的属性, 生成语料 数据。 2.如权利要求1所述的方法, 其特 征在于, 所述获取语料 数据模板包括: 对原始语料数据进行分词处 理, 以获取 所述原始语料数据中包 含的每个词语; 针对所述每个词语, 若预先配置有该词语所归属的属性类型, 则根据 所述属性类型, 对 所述原始语料数据中该词语进行替换。 3.如权利要求1所述的方法, 其特征在于, 所述根据填充后的三元组图结构中包含的属 性, 生成语料 数据, 包括: 根据所述填充后的三元组图结构中未标识有意图标识的属性, 对所述语料数据模板进 行填充; 根据填充后的语料 数据模板, 确定语句; 将所述语句确定为所述语料 数据。 4.如权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 对所述语句进行分词处 理, 以获取 所述语句中包 含的每个词语; 确定所述每 个词语分别对应的可替换词语; 根据至少一个词语分别对应的可替换词语, 对所述语句中该至少一个词语分别进行替 换, 以获取替换后的语句; 将所述替换后的语句确定为所述语料 数据。 5.如权利要求1 ‑4任一所述的方法, 其特 征在于, 所述方法还 包括: 针对所述知识库中包含的任意两个实体以及该两个实体之间的实体关系, 均 执行以下 步骤: 对于任一实体的实体属性, 根据该实体属性、 该实体所归属的实体类型、 以及该实体属 性归属的属性类型, 确定属性 三元组信息; 对于该实体之间的实体关系, 根据该两个实体的实体类型、 该实体关系, 生成属性三元 组信息; 针对每个所述属性三元组信息, 在该属性三元组信息中添加所述意图标识, 并将该属 性三元组信息确定为问句答案; 通过预先训练的语料生成模型, 基于每个所述属 性三元组 信息, 生成所述问句答案对应的语料 数据。 6.如权利要求5所述的方法, 其特征在于, 所述通过预先训练的语料生成模型, 基于每 个所述属性 三元组信息, 生成所述问句答案对应的语料 数据, 包括: 通过所述语料生成模型中的排序网络, 基于每个所述属性三元组信息, 获取每个所述 属性三元组信息的排序信息; 通过所述语料生成模型中的文本生成网络, 根据 所述排序信 息以及每个所述属性三元 组信息, 确定所述问句答案对应的语料 数据。 7.如权利要求6所述的方法, 其特征在于, 所述通过所述语料生成模型中的排序网络, 基于每个所述属性 三元组信息, 获取每 个所述属性 三元组信息的排序信息, 包括:权 利 要 求 书 1/2 页 2 CN 114637860 A 2通过所述排序网络 中的第一编码器, 获取每个所述属性三元组信 息分别对应的特征信 息; 通过所述排序网络中的第一 解码器, 基于每 个所述特 征信息, 确定所述 排序信息 。 8.如权利要求6所述的方法, 其特征在于, 所述通过所述语料生成模型中的文本生成网 络, 根据所述排序信息以及每个所述属性三元组信息, 确定所述问句答案对应的语料数据, 包括: 通过所述文本生成网络 中的第二编码器, 根据所述排序信 息以及每个所述属性三元组 信息, 确定编码信息; 通过所述文本生成网络中的第二解码器, 基于所述编码信息, 确定所述问句答案对应 的语料数据。 9.如权利要求5所述的方法, 其特 征在于, 所述语料生成模型通过如下 方式获取: 获取任一属性三元组信 息集合; 其中, 所述属性三元组信 息集合对应有第 一语料数据, 所述属性三元组信息集合包括至少三个属性三元组信息, 所述至少三个属性三元组信息是 基于同一 填充后的三元组图结构生成的; 通过原始语料生成模型, 基于所述属性三元组信息集合中包含的每个属性三元组信 息, 生成所述属性 三元组信息集 合对应的第二语料 数据; 基于所述第二语料数据以及所述第一语料数据, 对所述原始语料生成模型进行训练, 以获取训练完成的语料生成模型。 10.一种语料 数据生成装置, 其特 征在于, 所述装置包括: 获取单元, 用于基于获取到的语料数据模板, 确定所述语料数据模板对应的三元组图 结构; 其中, 所述 三元组图结构包括所述语料 数据模板对应的意图标识; 填充单元, 用于基于预先配置的知识库中包含的属性, 对所述三元组图结构进行填充; 其中, 所述属性包括各个实体的实体属性以及各个实体之间的实体关系; 生成单元, 用于根据填充后的三元组图结构中未标识有所述意图标识 的属性, 生成语 料数据。 11.一种电子设备, 其特征在于, 所述电子设备包括处理器, 所述处理器用于执行存储 器中存储的计算机程序时实现如权利要求1 ‑9中任一所述语料 数据生成方法的步骤。 12.一种计算机可读存储介质, 其特征在于, 其存储有计算机程序, 所述计算机程序被 处理器执行时实现如权利要求1 ‑9中任一所述语料 数据生成方法的步骤。权 利 要 求 书 2/2 页 3 CN 114637860 A 3

.PDF文档 专利 一种语料数据生成方法、装置、设备及介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种语料数据生成方法、装置、设备及介质 第 1 页 专利 一种语料数据生成方法、装置、设备及介质 第 2 页 专利 一种语料数据生成方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。