专利一种基于小样本的特定领域多标签文本分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111680038.4 (22)申请日 2021.12.31 (71)申请人长城信息股份有限公司地址 410100 湖南省长沙市经济技术开发区东3路5号 (72)发明人罗东　张沅　吴笛　王晓东　 (74)专利代理机构长沙市融智专利事务所(普通合伙) 43114 专利代理师欧阳迪奇 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 16/2458(2019.01) G06K 9/62(2022.01) (54)发明名称一种基于小样本的特定领域多标签文本分类方法 (57)摘要本发明公开了一种基于小样本的特定领域多标签文本分类方法，通过对原始语料中带有原始标签的语料进行标签进行分类，然后改变原始标签进行语料扩充，并基于扩充后的语料，通过 mask language model对预训练语言模型进行了多任务的训练来更新模型参数，使模型充分学习到领域的语义知识，在预测的阶段则使用知识库检索的方式，使用knn减少随机性，提升分类结果的准确性。在得到预测的结果后，继续将预测的结果当作人工标签重复上述步骤，使模型能够继续学习本领域的知识，并且检索知识库也越来越大，分类的结果也得到相应的提升。权利要求书2页说明书4页附图1页 CN 114491024 A 2022.05.13 CN 114491024 A 1.一种基于小样本的特定领域多标签文本分类方法，其特征在于，包括以下步骤：步骤一，获取特定领域的原始语料，并提取其中小部分语料，为语料中每个句子都标注上标签，并以相同的标签为一类，记录下标签的总类数；步骤二，将标注的标签加入到句子之前并对标签进行掩码，同时在标签的首尾分别增加固定词语以标识出标签并构成新的句子，再在新的句子头尾加上特定符号；然后加入用于标识当前标签是否正确的标识标签，再复制句子并将原标签内容依次更换为其他句子所标注且与原标签不同的标签，同时将标识标签从正确改为错误，从而扩充步骤一中提取的小部分语料；步骤三，向预训练语言模型中输入扩充后的语料，然后执行掩码语言模型任务，从而对预训练模型的参数进行更新；步骤四，将更新后的模型作为语义特征提取器，从而将所有扩充后的语料转为语义向量并作为查询检索库；步骤五，再从原始语料从提取部分语料，并为语料中的每个句子前都加入掩码且在掩码前后加入步骤二中的固定词语，同时按步骤一中记录的标签种类数来复制以得到同样数量的句子，然后输入到模型中，从而得到每个句子的语义向量；步骤六，将得到的语义向量结果来与查询检索库进行相似度计算，并取相似度最高的前N条标签中出现次数最高的标签作为没有原始标签的语料的标签；步骤七，返回步骤三，并以步骤六中得到的标签的语料作为模型的输入，继续更新模型的参数，直到损失函数达到收敛即完成模型训练；步骤八，采用步骤七中训练完成的模型，对与步骤一中领域相同的语料进行标签标注，从而实现分类。 2.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法，其特征在于，所述的步骤一中，所述的小部分语料为数量少于20 0条的文本语句。 3.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法，其特征在于，所述的步骤三中，执行掩码语言模型任务包括：将每个句子输入到预训练语言模型后，得到映射的低维向量表示，对掩码位置计算低维向量与掩码位置标签 mlm_label的损失函数，对于句首位置[ cls]位置计算低维向量与标识标签eq_lab el的损失函数，两个损失函数相加作为为整个预训练语言模型的损失函数；对应的损失函数L公式如下： L＝mlm_loss+eq_loss eq_loss＝‑[yjlog(pj)+(1‑yj)log(1‑pj)] 对于mlm_loss，其中V为mask的字的个数， yi表示被mask代替的标签的one ‑hot格式， pi 表示模型预测的字的概率；对于eq_loss， yj表示eq_label的值， pj表示模型预测是否为正例的概率；其中mlm_label 通过softmax计算， eq_label 通过sigmo id计算；基于上述步骤，反复迭代直到模型损失值不断下降直到收敛。 4.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法，其特征在于，所述的步骤四中，将所有扩充后的语料转为语义向量，是将不带标签的原始语句，以及权　利　要　求　书 1/2 页 2 CN 114491024 A 2标签本身分别通过模型的多层Tr ansformer输出映射到低维的向量中，并取所有字的均值作为该句子的语义向量。 5.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法，其特征在于，所述的步骤五中，每个句子的语义向量包括低维向量均值和预测的mask向量均值，其中句子的低维向量均值是句子中每个字的向量取均值， mask向量的均值指的是句子中用mask 代替的位置的字向量的均值。 6.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法，其特征在于，所述的步骤六中，相似度计算是通过余弦相似度实现，其中计算公式为： w1+w2＝1 其中w1、 w2为两种相似度的权重， vm1、 vm2分别表示模型预测的mask向量和实际的标签向量， vs1、 vs2则表示为待预测的句子向量和检索库里的句子向量。 7.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法，其特征在于，所述的步骤六中，取相似度最高的前N条标签作为没有原始标签的语料的标签，是对所有相似度计算的结果进行从大到小排序，取前N条结果，使用knn中投票表决的方法，前N条结果中出现次数最高的标签作为最相近的句子标签。权　利　要　求　书 2/2 页 3 CN 114491024 A 3

专利 一种基于小样本的特定领域多标签文本分类方法

专利一种基于小样本的特定领域多标签文本分类方法