全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211038989.6 (22)申请日 2022.08.29 (71)申请人 网经科技 (苏州) 有限公司 地址 215021 江苏省苏州市工业园区金鸡 湖大道13 55号国际科技园一期 (72)发明人 孟亚磊 黄明宇 金宁 刘继明  陈浮  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 王玉国 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/335(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 一种提示学习的小样本文本分类方法 (57)摘要 本发明公开了一种提示学习的小样本文本 分类方法, 先结合知识图谱初步构建标签词汇 表; 再对标签词汇表进行提炼筛选; 构建提示学 习模型并进行训练; 最后使用提示学习模型对新 的样本进行分类。 采用知识图谱概念节点的临近 拓展初步构建标签词汇表, 避免人工制定标签词 表的先验知识偏差与局限; 然后采用预训练语言 模型对各标签词与各类名的语义相似性进一步 提炼筛选, 降低冗余词对类别 区分的噪声干扰; 最后采用提示学习范式构建文本分类模型, 通过 模型训练优化 参数从而 对新的样本进行分类 。 权利要求书3页 说明书7页 附图1页 CN 115455181 A 2022.12.09 CN 115455181 A 1.一种提 示学习的小样本文本分类方法, 其特 征在于: 包 含以下步骤: S1)结合知识图谱初步构建标签词汇 表; S2)对标签词汇 表进行提炼筛 选; S3)构建提 示学习模型并进行训练; S4)使用提 示学习模型对新的样本进行分类。 2.根据权利要求1所述的一种提 示学习的小样本文本分类方法, 其特 征在于: S1)结合知识图谱初步构建标签词汇 表; 采用提示学习进行文本分类, 抽取与类别主题相关的不同角度、 不同粒度的标签词, 构 建标签词汇 表的步骤如下: S11)根据分类样本的领域特点, 选择合 适的外部知识图谱; 知识图谱包含许多概念实体, 并且承载不同概念之间的关系, 包括上下位关系; 文本分 类数据集中的类别名是对一类语句样本某种特征的抽象与概括, 类别名是知识图谱中的一 个实体; 知识图谱中众多实体与关系的知识利于对类别名的泛化, 降低自动化获取标签词 集的难度; S12)用每 个类别的类名作为锚点词, 从知识图谱中获取 标签词集 合; 对于每个类别, 以类名c作为起始点, 在知识图谱中搜寻与c相关性最高的N个节点N(c) 作为相关词; 再将c自身考虑进来, 每 个类别c可映射到一个标签词集Vc= N(c)∪{c}; S13)对各个 类别的标签词集 合并, 得到初步构建的标签词汇 表; 迭代每个类别, 将各类别获取的标签词集 合做并运 算, 得到一个标签词汇 表V; S2)对标签词汇 表进行提炼筛 选; 上一步扩展得到的标签词汇表收集了大量与类名关系紧密的词汇, 但预训练语言模型 与知识图谱的概念之间存在差距, 词汇表中仍有对类别区分无贡献的无用 词和噪声词汇, 需进一步提炼, 对标签词汇 表进行提炼的步骤如下: S21)选择 预训练语言模型, 对表外词特殊处 理; 经过步骤S1)获取的标签词 汇表V是预训练语言模型词 表W的一个子集, 如果V中包含表 外词, 存在w∈V且 则使用该词中每 个字的预测概 率作为其预测概 率; S22)采用提 示模板对所有样本进行包 装; 给定样本语句x, 将x放在模板中得到一个新的语句xp, 对训练集还 包括类名c; S23)对每 个类别, 从标签词汇 表中筛选语义最相近的词; 对于标签词汇表V中每个元素w, 为衡量w与每个类的相关性, 先采用语言模型M获取训 练集C经过模 板包装后样本中被遮 盖词为w的预测概率作为w的向量表示qw, 其中, qw中第i个 元素如公式(1): 其中, xip表示原样本xi采用模板p包 装后的样本; 考虑到类名概括了类别样本的关键 特征, 采用类名c 所对应的向量qc作为整个类的向量 表示, 每个标签词w与类别y的相关性r(w,y)通 过公式(2)中qw与qc两个向量的余弦相似度进 行表示; r(w,y)=cos(qw,qy)=cos(qw,qc)                   (2)权 利 要 求 书 1/3 页 2 CN 115455181 A 2另外, 有些标签词对多个类别有正面贡献, 会导致分类混淆, 为减轻混淆, 采用更严格 的相关性度量, 设计相关性 函数如公式3所示: 其中, Y是所有类别名的集合, c是标签词w所对应类别的类别名; 某个标签词与所在类 别的相关性应高于其与其 他类别的相关性, 才更有代 表性, 将R<1的标签词进行剔除; 最终每个类别对应一组数量 不等的更有代 表性的标签词; S24)对每 个类别y对应的近似词汇集进行合并; 迭代每个类别, 将各类别获取的标签词集 合做并运 算, 得到一个新的标签词汇 表V’; S3)构建提 示学习模型并进行训练; 结合步骤S2 1)确定的预训练语言模型、 步骤S22)的提示模板以及步骤S24)得到的标签 词汇表就可建立提示学习模型; 已有开源库可便捷地搭建提示学习模型对文本 分类任务进 行训练和推理; S4)使用提 示学习模型对新的样本进行分类 提示学习模型主要任务是将每个提炼后标签词的预测概率映射到类别标签y的决策 上, 采用平均权重的处理策略, 假设最终标签词汇表中每个词对类别预测有同等贡献, 那么 用标签y对应的词汇集Vy中各词 概率的平均值作为标签y的预测分数, 从而进行文本分类; 最终预测的类别yy由公式(4)得 出: 其中, p([MASK]=w|xp)表示对于已知样本xp其中被遮盖位置的词是w的概率; argmax 是取最大值所在类别的函数; 公式 中取平均概 率最大值所在的y赋值给yy作为预测结果。 3.根据权利要求2所述的一种提示学习的小样本文本分类方法, 其特征在于: 步骤 S11), 可公开访问的有通用领域的常识百科知识图谱, 包含Freebase、 CN ‑DBpedia、 YAGO、 Probase, 也有特定行业的知识图谱, 覆盖医疗、 金融、 娱乐、 地理领域, 在条件允许的情况 下, 可采用非 公开的知识图谱或自行构建特定领域的知识图谱。 4.根据权利要求2所述的一种提示学习的小样本文本分类方法, 其特征在于: 步骤 S12), 如果N太小, 类名的关联词就不能扩充 得足够多, 容易遗漏; 如果N太大, 则会引入较多 的低关联词语形成噪声, N取2 ~10之间。 5.根据权利要求2所述的一种提示学习的小样本文本分类方法, 其特征在于: 步骤 S21), 预训练语言模型采用RoBERTa ‑wwm。 6.根据权利要求2所述的一种提示学习的小样本文本分类方法, 其特征在于: 步骤 S22), 模板形式: (1)一个[MASK]例子: x (2)x的主题是[MASK] (3)x这句话属于[MASK]类型 (4)[MASK]主题的案例: x 其中[MASK]表示遮蔽语言模型在训练时被遮盖 的词, 对训练集而言, [MASK]所在的位权 利 要 求 书 2/3 页 3 CN 115455181 A 3

.PDF文档 专利 一种提示学习的小样本文本分类方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种提示学习的小样本文本分类方法 第 1 页 专利 一种提示学习的小样本文本分类方法 第 2 页 专利 一种提示学习的小样本文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:39:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。