专利一种针对中文文本分类任务的字符级对抗样本生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210219212.3 (22)申请日 2022.03.08 (71)申请人安徽理工大学地址 232001 安徽省淮南市山南新区泰丰大街168号 (72)发明人张顺香　吴厚月　 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称一种针对中文文本分类任务的字符级对抗样本生成方法 (57)摘要本发明提供一种对抗样本生成方法，涉及人工智能领域，尤其涉及自然语言处理领域，具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。具体实现方法为：获取用于生成对抗样本的原始数据，进行多音字字典的构建；对所述多音字字典中的数据进行标注；对所述原始数据进行利用所述多音字字典标注的数据进行多音字替换，得到对抗样本。本发明可以生成高质量的对抗样本。权利要求书1页说明书4页附图1页 CN 114579763 A 2022.06.03 CN 114579763 A 1.一种针对中文文本分类任务的字符级对抗样本生成方法，其特征在于包含以下步骤： A)数据获取及存储：从众多网络评论中获取原始数据，并进行存储。 B)多音字字典构建：根据所述原始数据，构建多音字字典。所述多音字字典表示为同时包含字符和读音之间关系的字典，用四元组(w,x,y,i)描述。其中， w是多音字的中文表示， x是w的拼音表述， y是w的具体含义， i表示w的第i个读音， i∈[1,7]。 C)多音字字典标注：根据所述多音字字典格式，进行标注，确定所述多音字字典中每个字的四元组(w,x,y,i)具体值。 D)对抗样本生成：将所述原始样本作为输入，利用构建的所述多音字字典中的数据，在所述原始数据中进行全局匹配，找到w相同的字，进行替换操作，得到与原文字形相同但字音不同的对抗样本。 2.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法，其特征在于：在步骤A)，所述原始数据包括结构化数据和非结构化数据。 3.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法，其特征在于：将所述对抗样本输入至目标判别模型，得到所述目标判别模型输出的所述样本的判断类别；根据所述判断类别，得到当前判断与所述原始数据类别之间的差异，得到扰动值，并将所述扰动返回至所述对抗样本生成过程。其中，所述目标判断类别与所述原始类别为不同。权　利　要　求　书 1/1 页 2 CN 114579763 A 2一种针对中文文本分类任务的字符级对抗样本生成方法技术领域 [0001]本发明涉及人工智能领域，尤其涉及自然语言处理领域，具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。技术背景 [0002]在文本领域中，大量的文本数据被用来进行各种分析。在利用文本数据进行相关任务时，都需要使用对抗样本进行模型鲁棒性检测或数据增强。同时为向训练数据中添加对抗样本，可以提高模型鲁棒性。 [0003]在目前的对抗样本生成方法中，都存在扰动幅度较大，容易被模型识别的问题，使得对抗样本没有发挥最好的性能。如何生成高质量的对抗样本，最大程度不被模型识别是至关重要的，也是本发明要解决的问题。发明内容 [0004]针对上述问题，本发明通过深入挖掘文本特征信息，利用汉字本身特点，生成高质量的对抗样本，为各类有对抗样本数据需求的任务提供技术支持。 [0005]本发明提供了一种针对中文文本分类任务的字符级对抗样本生成方法。 [0006]本发明所述的一种航空旅客付费选座意愿画像及分析的方法，其特征在于包含以下步骤： [0007]A)数据获取及存储：从众多网络评论中获取原始数据，并进行存储。 [0008]B)多音字字典构建：根据所述原始数据，构建多音字字典。 [0009]所述多音字字典表示为同时包含字符和读音之间关系的字典，用四元组(w,x,y, i)描述。 [0010]其中， w是多音字的中文表示， x是w的拼音表述， y是w的具体含义， i表示w的第i个读音， i∈[1,7]。 [0011]C)多音字字典标注：根据所述多音字字典格式，进行标注，确定所述多音字字典中每个字的四元组(w,x,y,i)具体值。 [0012]D)对抗样本生成：将所述原始样本作为输入，利用构建的所述多音字字典中的数据，在所述原始数据中进行全局匹配，找到w相同的字，进行替换操作，得到与原文字形相同但字音不同的对抗样本。 [0013]本发明所述的一种航空旅客付费选座意愿画像及分析的方法，其特征在于： [0014]在[0007]行中，所述原始数据包括结构化数据和非结构化数据。 [0015]本发明所述的一种针对中文文本分类任务的字符级对抗样本生成方法，其特征在于： [0016]将所述对抗样本输入至目标判别模型，得到所述目标判别模型输出的所述样本的判断类别； [0017]根据所述判断类别，得到当前判断与所述原始数据类别之间的差异，得到扰动值，说　明　书 1/4 页 3 CN 114579763 A 3

专利 一种针对中文文本分类任务的字符级对抗样本生成方法

专利一种针对中文文本分类任务的字符级对抗样本生成方法