全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210219212.3 (22)申请日 2022.03.08 (71)申请人 安徽理工大 学 地址 232001 安徽省淮南市山 南新区泰丰 大街168号 (72)发明人 张顺香 吴厚月  (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称 一种针对中文文本分类任务的字符级对抗 样本生成方法 (57)摘要 本发明提供一种对抗样 本生成方法, 涉及人 工智能领域, 尤其涉及自然语言处理领域, 具体 来说是一种针对中文文本分类任务的字符级对 抗样本生成方法。 具体实现方法为: 获取用于生 成对抗样本的原始数据, 进行多音字字典的构 建; 对所述多音字字典中的数据进行标注; 对所 述原始数据进行利用所述多音字字典标注的数 据进行多音字替换, 得到对抗样本。 本发明可 以 生成高质量的对抗样本 。 权利要求书1页 说明书4页 附图1页 CN 114579763 A 2022.06.03 CN 114579763 A 1.一种针对中文文本分类任务的字符级对抗样本生成方法, 其特征在于包含以下步 骤: A)数据获取及存 储: 从众多网络 评论中获取原 始数据, 并进行存 储。 B)多音字字典构建: 根据所述原 始数据, 构建多 音字字典。 所述多音字字典表示为同时包含字符和读音之间关系的字典, 用四元组(w,x,y,i)描 述。 其中, w是多音字的中文表示, x是w的拼音表述, y是w的具体含义, i表示w的第i个读音, i∈[1,7]。 C)多音字字典标注: 根据 所述多音字字典格 式, 进行标注, 确定所述多音字字典中每个 字的四元组(w,x,y,i)具体值。 D)对抗样本生成: 将所述原始样本作为输入, 利用构建的所述多音字字典中的数据, 在 所述原始数据中进行全局匹配, 找到w相同的字, 进行替换操作, 得到与原文字形相同但字 音不同的对抗样本 。 2.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法, 其 特征在于: 在步骤A), 所述原 始数据包括结构化数据和非结构化数据。 3.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法, 其 特征在于: 将所述对抗样本输入至目标判别模型, 得到所述目标判别模型输出的所述样本的判断 类别; 根据所述判断类别, 得到当前判断与所述原始数据类别之间的差异, 得到扰动值, 并将 所述扰动返回至所述对抗样本生成过程。 其中, 所述目标判断类别与所述原 始类别为 不同。权 利 要 求 书 1/1 页 2 CN 114579763 A 2一种针对中文 文本分类任务的字符级对抗样本生成方 法 技术领域 [0001]本发明涉及人工智能领域, 尤其涉及自然语言处理领域, 具体来说是一种针对中 文文本分类任务的字符级对抗样本生成方法。 技术背景 [0002]在文本领域中, 大量的文本数据被用来进行各种分析。 在利用文本数据进行相关 任务时, 都需要使用对抗样本进行模型鲁棒性检测或数据增强。 同时为向训练数据中添加 对抗样本, 可以提高模型鲁棒 性。 [0003]在目前的对抗样本生成方法中, 都存在 扰动幅度较大, 容易被模型识别的问题, 使 得对抗样本没有发挥最好的性能。 如何生成高质量的对抗样本, 最大程度不被模型识别是 至关重要的, 也是本发明要解决的问题。 发明内容 [0004]针对上述问题, 本发明通过深入挖掘文本特征信息, 利用汉字本身特点, 生成高质 量的对抗样本, 为各类有对抗样本数据需求的任务 提供技术支持。 [0005]本发明提供了一种针对中文 文本分类任务的字符级对抗样本生成方法。 [0006]本发明所述的一种航空旅客付费选座意愿画像及分析的方法, 其特征在于包含以 下步骤: [0007]A)数据获取及存 储: 从众多网络 评论中获取原 始数据, 并进行存 储。 [0008]B)多音字字典构建: 根据所述原 始数据, 构建多 音字字典。 [0009]所述多音字字典表示为同时包含字符和读音之间关系的字典, 用四元组(w,x,y, i)描述。 [0010]其中, w是多音字的中文表示, x是w的拼音表述, y是w的具体含义, i表示w的第i个 读音, i∈[1,7]。 [0011]C)多音字字典标注: 根据所述多音字字典格式, 进行标注, 确定所述多音字字 典中 每个字的四元组(w,x,y,i)具体值。 [0012]D)对抗样本生成: 将所述原始样本作为输入, 利用构建的所述多音字字典中的数 据, 在所述原始数据中进 行全局匹配, 找到w相同的字, 进 行替换操作, 得到与 原文字形相同 但字音不同的对抗样本 。 [0013]本发明所述的一种航空旅客 付费选座 意愿画像及分析的方法, 其特 征在于: [0014]在[0007]行中, 所述原 始数据包括结构化数据和非结构化数据。 [0015]本发明所述的一种针对中文文本分类任务的字符级对抗样本生成方法, 其特征在 于: [0016]将所述对抗样本输入至目标判别模型, 得到所述目标判别模型输出的所述样本的 判断类别; [0017]根据所述判断类别, 得到当前判断与所述原始 数据类别之间的差异, 得到扰动值,说 明 书 1/4 页 3 CN 114579763 A 3

.PDF文档 专利 一种针对中文文本分类任务的字符级对抗样本生成方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种针对中文文本分类任务的字符级对抗样本生成方法 第 1 页 专利 一种针对中文文本分类任务的字符级对抗样本生成方法 第 2 页 专利 一种针对中文文本分类任务的字符级对抗样本生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。