全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111680038.4 (22)申请日 2021.12.31 (71)申请人 长城信息股份有限公司 地址 410100 湖南省长 沙市经济技 术开发 区东3路5号 (72)发明人 罗东 张沅 吴笛 王晓东  (74)专利代理 机构 长沙市融智专利事务所(普 通合伙) 43114 专利代理师 欧阳迪奇 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 16/2458(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于小样本的特定领域多标签文本分 类方法 (57)摘要 本发明公开了一种基于小样本的特定领域 多标签文本分类方法, 通过对原始 语料中带有原 始标签的语料进行标签进行分类, 然后改变原始 标签进行语料扩充, 并基于扩充后的语料, 通过 mask language  model对预训练语言模型进行了 多任务的训练来更新模型参数, 使模 型充分学习 到领域的语义知识, 在预测的阶段则使用知 识库 检索的方式, 使用knn减少随机性, 提升分类结果 的准确性。 在得到预测的结果后, 继续将预测的 结果当作人工标签重复上述步骤, 使模型能够继 续学习本 领域的知识, 并且检索知识库也越来越 大, 分类的结果 也得到相应的提升 。 权利要求书2页 说明书4页 附图1页 CN 114491024 A 2022.05.13 CN 114491024 A 1.一种基于小样本的特定领域多标签文本分类方法, 其特 征在于, 包括以下步骤: 步骤一, 获取特定领域的原始语料, 并提取其中小部分语料, 为语料中每个句子都标注 上标签, 并以相同的标签为 一类, 记录下 标签的总类数; 步骤二, 将标注 的标签加入到句子之前并对标签进行掩码, 同时在标签的首尾分别增 加固定词语以标识出标签并构成新的句 子, 再在新的句 子头尾加上特定符号; 然后加入用 于标识当前标签是否正确的标识标签, 再复制句子并将原标签内容依次更换为其他句子所 标注且与原标签不同的标签, 同时将标识标签从正确改为错误, 从而扩充步骤一中提取 的 小部分语料; 步骤三, 向预训练语言模型中输入扩充后的语料, 然后执行掩码语言模型任务, 从而对 预训练模型的参数进行 更新; 步骤四, 将更新后的模型作为语义特征提取器, 从而将所有扩充后的语料转为语义向 量并作为 查询检索库; 步骤五, 再从原始语料从提取部分语料, 并为语料中的每个句子前都加入掩码且在掩 码前后加入步骤二中的固定词语, 同时按步骤一中记录的标签种类数来复制以得到同样数 量的句子, 然后输入到模型中, 从而得到每 个句子的语义向量; 步骤六, 将得到的语义向量结果来与查询检索库进行相似度计算, 并取相似度最高的 前N条标签中出现次数最高的标签作为没有原 始标签的语料的标签; 步骤七, 返回步骤三, 并以步骤六中得到的标签的语料作为模型的输入, 继续更新模型 的参数, 直到损失函数达 到收敛即完成模型训练; 步骤八, 采用步骤七中训练完成的模型, 对与步骤一中领域相同的语料进行标签标注, 从而实现分类。 2.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法, 其特征在 于, 所述的步骤一中, 所述的小部分语料为数量少于20 0条的文本语句。 3.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法, 其特征在 于, 所述的步骤三中, 执 行掩码语言模型任务包括: 将每个句子输入到预训练语言模型后, 得到映射的低维向量表示, 对掩码位置计算低 维向量与掩码位置标签 mlm_label的损失函数, 对于句首位置[ cls]位置计算低维向量与标 识标签eq_lab el的损失函数, 两个损失函数相加作为为整个预训练语言模型的损失函数; 对应的损失函数L公式如下: L=mlm_loss+eq_loss eq_loss=‑[yjlog(pj)+(1‑yj)log(1‑pj)] 对于mlm_loss, 其中V为mask的字的个数, yi表示被mask代替的标签的one ‑hot格式, pi 表示模型预测的字的概率; 对 于eq_loss, yj表示eq_label的值, pj表示模型预测是否 为正例 的概率; 其中mlm_label 通过softmax计算, eq_label 通过sigmo id计算; 基于上述 步骤, 反复迭代直到模型损失值 不断下降直到收敛。 4.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法, 其特征在 于, 所述的步骤四中, 将所有扩充后的语料转为语义向量, 是将不带标签的原始语句, 以及权 利 要 求 书 1/2 页 2 CN 114491024 A 2标签本身分别通过模型的多层Tr ansformer输出映射到低维的向量中, 并取所有字的均值 作为该句子的语义向量。 5.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法, 其特征在 于, 所述的步骤五中, 每个句子的语义向量包括低维向量均值和预测的mask向量均值, 其中 句子的低维向量均值是句子中每个字的向量取均值, mask向量的均值指的是句子中用mask 代替的位置的字向量的均值。 6.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法, 其特征在 于, 所述的步骤六中, 相似度计算是通过余弦相似度实现, 其中计算公式为: w1+w2=1 其中w1、 w2为两种相似度的权重, vm1、 vm2分别表示模型预测的mask向量和实际的标签向 量, vs1、 vs2则表示为待预测的句子向量和检索库里的句子向量。 7.根据权利要求1所述的一种基于小样本的特定领域多标签文本分类方法, 其特征在 于, 所述的步骤六中, 取相似度最高的前N条标签作为没有原始标签的语料的标签, 是对所 有相似度计算的结果进行从大到小排序, 取前N条结果, 使用knn中投票表决的方法, 前N条 结果中出现次数最高的标签作为 最相近的句子标签。权 利 要 求 书 2/2 页 3 CN 114491024 A 3

.PDF文档 专利 一种基于小样本的特定领域多标签文本分类方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于小样本的特定领域多标签文本分类方法 第 1 页 专利 一种基于小样本的特定领域多标签文本分类方法 第 2 页 专利 一种基于小样本的特定领域多标签文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:42:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。