全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210721119.2 (22)申请日 2022.06.24 (71)申请人 安徽工业大学 地址 243002 安徽省马鞍山市花 山区湖东 路59号 (72)发明人 袁志祥 王雅卿  (74)专利代理 机构 安徽知问律师事务所 34134 专利代理师 于婉萍 (51)Int.Cl. G06V 10/44(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于深度互学习的多标记零样本学习 方法 (57)摘要 本发明公开了一种基于深度互学习的多标 记零样本学习方法, 涉及机器学习领域的多 标记 学习技术。 本发明利用 深度互学习技术, 首先设 计两个子网络, 分别对CNN s提取的特征学习出两 种表示, 即基于区域的视觉特征和基于语义的视 觉特征, 在图像区域特征与区域特征相关联的基 础上, 融合了图像特征与标签语义的关系; 并在 整个训练过程中使两个子网络进行深度互学习, 相互协作、 相互促进, 使得结果分布尽可能保持 一致; 同时在深度互学习过程中能够不断增强区 域特征与区域特征、 区域特征与标签语义之间的 关联, 从而提升多标记零样本问题下分类的准确 性。 权利要求书4页 说明书6页 附图1页 CN 114998613 A 2022.09.02 CN 114998613 A 1.一种基于深度互学习的多标记零样本学习方法, 其特 征在于: 包括以下步骤: S1、 获取图像视觉特征, 即加载预训练的深度卷积神经网络提取图像特征; 获取标签语 义, 即加载 预训练的Gl oVe模型提取 标签语义信息; S2、 设计一个语义微调模块, 用于对利用GloVe模型提取出的标签语义信息进行细化或 微调, 使得提取到的标签 语义信息更准确; S3、 设计融合图像区域与图像区域之间相关性的子网络1: 利用多头自注意力机制, 将 图像中每 个区域都与其它各区域相关联, 得到基于区域的视 觉特征表示; S4、 再将S3中得到的基于区域的视觉特征映射到语义空间中, 计算标签的置信度分数, 即每个标签出现在该图像中的概 率; S5、 设计融合标签语义与图像特征之间相关性的子网络2: 将标签语义信息与视觉特征 相关联, 得到基于语义的视 觉特征表示; S6、 再将S5中得到的基于语义的视觉特征同样映射到语义空间中, 计算标签的置信度 分数, 即每 个标签出现在该图像中的概 率; S7、 利用深度互学习技术, 设计互学习损失, 使得在训练过程中, 两个子网络在训练自 身分类性能的同时能够互相学习对方的训练经验, 达 到互相增强的效果; S8、 在测试 时, 给定一个测试样本, 输入到S1 ‑S7训练得到的模型中, 得到两个子 网络的 预测值, 再将两个预测值加权求和进行融合, 即可 得到测试样本最终的预测值。 2.根据权利要求1所述的一种基于深度互学习的多标记零样本学习方法, 其特征在于: 步骤S1中, 深度卷积神经网络提取图像特征记为xi∈χ, 即 其中, 表示实数 域, h, w分别表示特 征图的高和宽, d表示 通道数; 图像i的对应标签记为yi∈{0,1}S, 训练集中图像对应的标签都属于已知类别集合。 CS 表示已知类别集 合, S表示已知类别的个数; 表示利用GloVe模 型提取出的S个已知类别的语义向量, 其中, da=300, 用来 表示S个已知类别的信息以及对它 们之间的关系进行编码; 表示利用GloVe模型提取出的U个未知类别的语义向量, 同样, da=300, CU表 示未知类别集 合, U表示未知类别的个数; CS+U表示同时包 含已知类别和未知类别的集 合。 3.根据权利要求2所述的一种基于深度互学习的多标记零样本学习方法, 其特征在于: 步骤S2中, 语义微调模块Gv的设计方法为: 利用一个可学习的3层感知机和ReLU激 活函数构 成语义微调模块Gv, 其中将感知机的隐藏维度设为1024, 输出维度设为3 00; Vs=Gv(AS)    (1) 公式(1)中 是利用GloVe模型获取的类别语义向量; 是经过Gv模 块微调的类别语义向量。 4.根据权利要求3所述的一种基于深度互学习的多标记零样本学习方法, 其特征在于: 步骤S3中, 子网络1的设计方法为: 步骤一、 首先将提取的图像特征 当作hw个区域特征, 每个区域特征由d维组 成, 即 其中 表示图像i的第r个区域; 将图像特征xi投影到低维 空间d′中, 其中d ′=d/N; 使用N个投影头创建查询向量、 键向量、 值向量, 查询向量用来寻找权 利 要 求 书 1/4 页 2 CN 114998613 A 2与所有区域特征 的键向量的相关性, 值向量则保持每个区域特征当前形式的状态; 每个区 域特征都有自己的查询向量 ‑键向量‑值向量, 将图像特 征xi分别经过投影变换得到: 公式(2)‑(4)中, n表示多头注意机制的 投影头, n∈{1,2,. ..,N}; 表示可学习的投影权 重; 步骤二、 将每个查询向量寻找与来自hw个区域特征的所有键向量的相关性, 可得到每 个区域特 征与其他各区域特 征的相关性权 重rn如下: 公式(5)中 σ 表示softmax激活函数, 用来做归一化处理, 使得权重值处在 [0,1]之间; 表示对 做转置操作; 步骤三、 利用公式(5)得到的权 重值对值向量进行加权: 公式(6)中 将公式(6)计算出的每个头的低维自注意特征沿着通道维度 进行合并, 最终得到基于区域的特 征表示Fi: Fi=[α1; α2; ... αN]Wf   (7) 公式(7)中 表示可学习的权 重参数; 与原始图像特征xi一致, 基于区域的特征 作为hw个加权区域特征, 每个加 权区域特征由d维组成, 即 其中 表示图像i中第r个区域的 加权特征。 5.根据权利要求4所述的一种基于深度互学习的多标记零样本学习方法, 其特征在于: 步骤S4中, 图像i中标签c的置信度分数 可以计算 为: 公式(8)中 为步骤S3中得到的图像i中第r个区域的加权特征; c表示第c个标 签; 为标签c的分类器参数, 表示对θc做转置操作; 图像中每个区域加权特征 与标签c的分类 器参数相乘, 其中取最大值即为 这里我们将每 个标签分类 器的参数表示 为与该标签语义向量相关的函数: θc=VcWv   (9) 公式(9)中 表示经Gv模块微调得到的标签c的语义向量; 是 可学习的权 重参数。 6.根据权利要求5所述的一种基于深度互学习的多标记零样本学习方法, 其特征在于: 为了使每 个图像中存在标签的分数 大于不存在标签的分数, 引入排名损失函数Lrank1:权 利 要 求 书 2/4 页 3 CN 114998613 A 3

PDF文档 专利 一种基于深度互学习的多标记零样本学习方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度互学习的多标记零样本学习方法 第 1 页 专利 一种基于深度互学习的多标记零样本学习方法 第 2 页 专利 一种基于深度互学习的多标记零样本学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。