全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211031398.6 (22)申请日 2022.08.26 (71)申请人 天翼电子商务有限公司 地址 100037 北京市西城区阜成门外大街 31号4层429D (72)发明人 孙芃 刘波 徐小龙 李慧  方徐伟  (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06F 40/205(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种结合对比学习与知识蒸馏的文本分类 方法 (57)摘要 本发明公开了一种结合对比学习与知识蒸 馏的文本分类方法, 以对话文本意图分类作为业 务场景, 使用我们的方法大幅提高小模型的准确 率, 降低线上推理时间和难度, 提高文本意图识 别速度。 本发 明的一种结合对比学习与知识蒸馏 的文本分类方法在图像分类和文本分类数据集 上获得较高的准确率, 继而体 现出本发明的有效 性; 在神经网络模型广泛应用的今天, 神经网络 的推理时间和大小是限制神经网络应用场景的 主要因素, 基于此, 本发明能明显能够有效提高 模型准确率, 扩大神经网络应用领域, 使神经网 络能够应用到更加丰富的场景中。 权利要求书1页 说明书3页 附图1页 CN 115470345 A 2022.12.13 CN 115470345 A 1.一种结合对比学习与知识蒸馏的文本分类方法, 其特 征在于, 包括以下步骤: S1、 老师模型和学生模型都是预训练模型, 老师模型精度高, 具有更好的泛化能力, 但 是模型很大, 推理 时间过长, 学生模 型参数量较小; 推理 时间短, 但精度相对较低; 所以我们 需要提高学生模型的准确率 替代老师模型; S2、 老师模型和学生模型分别在目标域进行预训练; 减少通用领域和目标领域之间的 gap, 提高老师模型和学生模型在当前目标域的泛化能力; S3、 老师模型在目标域的无标签数据上使用对比学习提高词向量质量, 减少同类文本 句向量之间的距离, 增 加异类文本句向量之间的距离; 取一组句子 并使用 是通过对xi和 在全连接层的层之前使用了使用 独立的dropout, 概率默认p=0.2; 我们表示 其中z是dropout的随机掩码; 我 们只需将相同的输入输入输入编码器两次就可以得到不同的特 征输出; 对于一小批N个句子; 请注意, z只是transformer中 的标准dropout掩码; 对老师模型进 行迭代, 有助于老师模型输出 更有用的句向量; S4、 学生模型在目标域的无标签数据上使用对比学习提高词向量质量, 减少同类文本 句向量之间的距离, 增 加异类文本句向量之间的距离; 方法同上; S5、 老师模型在目标域的少量有标签数据上使用对比学习提高词向量质量, 减少同类 文本句向量之间的距离, 增 加异类文本句向量之间的距离; 形式上, 我们将 扩展到 其中xi是本例, 和 分别是正例和反例 的文本; 培训目标“i”由(N是最小批量)定义, 是正例的句向量, 是反例的句向量, 也是 反例得到的另外一个句向量, 是温度超参数; S6、 学生模型在目标域的少量有标签数据上使用对比学习提高词向量质量, 减少同类 文本句向量之间的距离, 增 加异类文本句向量之间的距离; 方法同上; S7、 通过对比学习强化句向量表示, 最后在分类任务上使用知识蒸馏 的方法进一步提 高学生模 型的精度, 使用老师模 型的输出层监督学生模型的输出层, 在训练的过程中, 老师 网络模块不参加反向传播; 只对 学生网络模块进 行反向传播; 在训练过程中, 老师网络模块 始终不变; 该方法充分利用了领域内有标注和无标注的数据, 蒸馏过程中损失函数都由两 部分构成; 第一阶段使用老师模型 的输出和学生模型 的输出计算知识蒸馏损失, 使用学生 模型的输出和标签 计算交叉熵损失, 两者相加构成整体的损失函数。权 利 要 求 书 1/1 页 2 CN 115470345 A 2一种结合对比学习与知识 蒸馏的文本分类方 法 技术领域 [0001]本发明涉及对比学习, 文本分类技术领域, 特别涉及一种结合对比学习与知识蒸 馏的文本分类方法。 背景技术 [0002]通常我们使用文本预训练模型, 将文本预训练模型在目标领域进行预训练, 降低 通用领域与 专用领域的gap, 再将文本预训练模 型接入下游文本 分类任务。 获得相对良好的 分类结果。 但是类似方法在训练过程中没有考虑到目标领域的文本没有被充分使用, 词向 量任务在训练过程中可能塌陷。 [0003]我们的方法是将预训练模型在目标领域经过一次目标域文本预训练降低通用领 域与专用领域gap, 然后先把使大量无标注数据按照对比学习的形式采用同一batchsize作 为副样本, 使同类句向量的距离变近, 将其他句向量距离变远, 再将少量带标注数据按照对 比学习形式训练一次, 从而提高句向量的有效性。 最后将预训练模型接入下游任务进行训 练。 基于知识蒸馏的文本分类训练过程 最终提高文本识别准确率。 发明内容 [0004]本发明要解决的技术问题是克服现有技术的缺陷, 提供一种结合对比学习与知识 蒸馏的文本 分类方法, 充分使用领域内文本知识, 同时充分吸收预训练老师模型知识, 能够 实现更高的准确率。 [0005]本发明提供了如下的技 术方案: [0006]本发明提供一种结合对比学习与知识蒸馏的文本分类方法, 包括以下步骤: [0007]S1、 老师模型和学生模型都是预训 练模型, 老师模型精度高, 具有更好的泛化能 力, 但是模型很大, 推理时间过长, 学生模型参数量较小; 推理时间短, 但精度相对较低; 所 以我们需要提高学生模型的准确率 替代老师模型; [0008]S2、 老师模型和学生模型分别在目标域进行预训练; 减少通用领域和目标领域之 间的gap, 提高老师模型和学生模型在当前目标域的泛化能力; [0009]S3、 老师模型在目标域的无标签数据上使用对比学习提高词向量质量, 减少同类 文本句向量之间的距离, 增 加异类文本句向量之间的距离; [0010]取一组句子 并使用 是通过对xi和 在全连接层的层之前使用了 使用独立的dropout, 概率默认p=0.2; 我们表示 其中z是dropout的随机掩 码; 我们只需将相同的输入输入输入编码器两次就可以得到不同的特 征输出; [0011] [0012]对于一小批N个句子; 请注意, z只是transformer中的标准dropout掩码; 对老师模说 明 书 1/3 页 3 CN 115470345 A 3

PDF文档 专利 一种结合对比学习与知识蒸馏的文本分类方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结合对比学习与知识蒸馏的文本分类方法 第 1 页 专利 一种结合对比学习与知识蒸馏的文本分类方法 第 2 页 专利 一种结合对比学习与知识蒸馏的文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。