全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210205553.5 (22)申请日 2022.03.03 (71)申请人 南京邮电大 学 地址 210023 江苏省南京市亚 东新城区文 苑路9号 (72)发明人 魏昕 姚玉媛 周亮 高赟  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 徐莹 (51)Int.Cl. G06T 5/50(2006.01) G06T 5/00(2006.01) G06T 7/529(2017.01) G06V 10/40(2022.01) G06V 10/22(2022.01)G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于注意力机制的跨模态图像修复方 法及装置 (57)摘要 本发明公开了一种基于注意力机制的跨模 态图像修复方法及装置, 方法包括: 选取多模态 数据集, 包括缺损图像数据、 真实图像数据和触 觉信号, 将该数据集划分为训练集和测试集; 设 计一个基于注意力机制的跨模态图像修复AGVI 模型, 该模型包括可学习特征提取、 转移特征注 意力、 相关嵌入学习和跨模态图像修复四个模 块; 利用训练集对跨模态图像修复AGVI模型进行 训练, 得到最优的跨模态图像修复AGVI模型结构 及网络参数; 利用测试集中的触觉信号和缺损图 像数据, 基于最优的跨模态图像修复AGVI模型进 行跨模态修复图像。 本发明通过引入注意力机 制, 精准定位图像缺损区域, 并利用触觉信号中 的关键信息修复预测、 填充该区域, 实现图像高 质量、 细粒度修复。 权利要求书5页 说明书13页 附图2页 CN 114677311 A 2022.06.28 CN 114677311 A 1.一种基于注意力机制的跨模态图像修复方法, 其特 征在于, 包括以下步骤: 步骤1、 选取多模态数据集, 所述多模态数据集包括缺损图像数据、 真实图像数据和触 觉信号, 并将该多模态数据集划分为训练集和 测试集; 步骤2、 设计一个 基于注意力机制的跨模态图像修复AGVI模型, 该模型包括: 可学习特征提取模块, 用于提取触觉信号、 缺损图像数据和真实图像数据的特征, 并参 与后续端到端的模型训练; 转移特征注意力模块, 用于引入注意力 机制, 定位图像缺损区域, 获取表征缺损区域的 转移特征; 相关嵌入学习模块, 用于结合真实标签信息构造相关嵌入学习空间, 在最小化语义关 联目标函数完成语义特征学习任务的同时, 采用基于交叉熵的分类度量目标函数最小化预 测标签和真实标签的差异, 得到最终相关嵌入学习阶段不同模态间语义相似学习的总目标 函数, 挖掘所提取的触觉特 征中与图像缺损区域 最为相关的触觉特 征; 跨模态图像修复模块, 用于结合像素间感知约束损 失函数、 外观约束损 失函数和对抗 损失函数, 利用所挖掘的与图像缺损区域最为相关的触觉特征对缺损图像数据进 行跨模态 修复; 步骤3、 利用训练集对跨模态图像修复AGVI模型进行训练, 得到最优的跨模态图像修复 AGVI模型 结构及网络参数; 步骤4、 利用测试集中的触觉信号和缺损图像数据, 基于最优的跨模态图像修复AGVI模 型进行跨模态图像修复。 2.根据权利要求1所述基于注意力 机制的跨模态图像修复方法, 其特征在于, 所述步骤 1中选取多模态数据集, 具体包括: 步骤(1‑1)、 选择缺损图像数据I、 真实图像数据R和触觉信号H三种不同模态数据组成 多模态数据集D; 其中, 真实 图像数据为原始彩色图像信号, 触觉信号为触觉原始信号经过 预处理得到的触觉功 率谱密度, 缺损图像数据为真实图像数据经过缺损预 处理得到缺损率 为 λ 的图像, λ 的取值范围在0 到1之间; 步骤(1‑2)、 对于多模态数据集D中不同模态的数据, 统计它们的真实标签信息Y, 即使 用独热one‑hot编码, 为每一个数据打上表示的内容信息所属的类别标签; 步骤(1‑3)、 从多模态数据集D中随机选取比例为α 的数据作为训练集Dtr, 剩余的1 ‑α 比 例的数据作为测试集Dte, α 的取值范围在0 到1之间。 3.根据权利要求1所述基于注意力 机制的跨模态图像修复方法, 其特征在于, 所述步骤 2中可学习特征提取模块 提取触觉信号、 缺损图像数据和真实图像数据的特 征, 具体包括: 对于触觉信号H, 采用门循环单元GRU和3层全连接网络作为触觉映射网络来获取触觉 特征h和触觉特 征预测标签y(h); 对于缺损图像数据I和真实图像数据R, 均采用深度卷积神经网络所构成的图像映射网 络提取浅层的缺损图像特 征i和真实图像特 征r, 具体过程 为: 权 利 要 求 书 1/5 页 2 CN 114677311 A 2其中, h、 i和r分别为触觉特 征、 缺损图像特 征和真实图像特 征, h、 i和r的维度分别为 和 θh和θi分别是触觉映射网络Fh(H; θh)和图像映射网络Fi(I/R; θi)的参数集 合。 4.根据权利要求1所述基于注意力 机制的跨模态图像修复方法, 其特征在于, 所述步骤 2中转移注意力模块获取表征缺损区域的转移特 征, 具体包括: 步骤A、 对于缺损图像特征i和真实图像特征r, 将每一个特征值定义为一个特征单元, 即 和 ik和rl分别表示缺损图像特征i中第k个特征值和真实图像 特征r中第l个特征值, 和 分别表示缺损图像特征i和真实图像特征r的维度; 然后, 采 用归一化内积对缺损图像特征i中的每一个ik和真实图像特征r中的每一个rl进行计算, 得 到这两个特 征所有特征单元之间的余弦相似度, 具体表示如下: 其中, ck,l表示余弦相似度矩阵, || ·||表示取模操作, < ·,·>表示归一化内积操 作; 步骤B、 从真实图像特征中转移与缺损图像特征中表征缺损区域的每个特征单元最相 关的部分, 即对k行l列的余弦相似度矩阵ck,l的每一列取最大值, 这 一过程表示 为: 其中, ak为转移注意力索引, 表示在真实图像特征r中与缺损图像特征i的第k个位置最 相关的特 征度量; 步骤C、 基于转移注意力索引, 对真实图像特征r进行特征选择操作, 以期从真实图像特 征中获取表征图像缺损区域的转移特性t, 该 过程表示 为: tk=rak, 其中, tk表示选取真实图像特征r中第ak个位置的特征值转移得到转移 特征t中第k个位 置的特征值, 再将其 通过sigmo id层进行 特征分类, 得到转移特 征的预测标签y(t)。 5.根据权利要求1所述基于注意力 机制的跨模态图像修复方法, 其特征在于, 所述步骤 2中相关嵌入学习模块挖掘触觉特 征中与图像缺损区域 最为相关的触觉特 征, 具体包括: 步骤A、 利用真实标签信息Y={y},y∈{1,2, …,C}构造相关嵌入学习空间, 完成语义特 征学习任务, 这 一过程主 要通过最小化语义关联目标函数Lrem实现: δpq=hp*tq, 其中, y表示真实标签, C表示训练数据类别总数, N表示训练数据总数, spq为类别关联因 子, δpq为特征关联因子, 和 分别为第p个触觉特征的预测标签和第q个转移特征的预 测标签, (·)T表示转置操作, hp和tq分别表示第p个触觉特征和第q个转移特征; 该语义关联 目标函数确保在相关嵌入学习空间中, 具有相同语义的转移特征可以辅助触觉进 行语义特权 利 要 求 书 2/5 页 3 CN 114677311 A 3

.PDF文档 专利 一种基于注意力机制的跨模态图像修复方法及装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于注意力机制的跨模态图像修复方法及装置 第 1 页 专利 一种基于注意力机制的跨模态图像修复方法及装置 第 2 页 专利 一种基于注意力机制的跨模态图像修复方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。