全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210751774.2 (22)申请日 2022.06.28 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 厉向东 滕佳琪 阴凯琳  (74)专利代理 机构 杭州天勤知识产权代理有限 公司 33224 专利代理师 曹兆霞 (51)Int.Cl. G06V 10/774(2022.01) G06N 5/04(2006.01) G06N 20/00(2019.01) G06V 10/764(2022.01) G06V 10/77(2022.01)G06V 10/80(2022.01) (54)发明名称 一种任务 驱动的视觉注 意力预测方法、 装置 和系统 (57)摘要 本发明公开了一种任务驱动的视觉注意力 预测方法、 装置和系统, 通过基于自下而上的多 低级视觉特征的融合和任务信息的引导来构建 视觉注意力预测模型, 使 得模型能够实现更普通 人群在信息浏览、 导航、 搜索等交互任务下的视 觉注意力预测, 提高基于任务状态下预测结果的 准确度。 权利要求书2页 说明书7页 附图2页 CN 115147677 A 2022.10.04 CN 115147677 A 1.一种任务驱动的视 觉主力预测方法, 其特 征在于, 包括以下步骤: 获取图像序列, 并对图像序列进行噪声数据清洗和数据增强, 以作为样本数据; 构建训练系统, 训练系统包括自下而上的特征融合模块、 自上而下的任务引导模块、 特 征推理模块、 解码 器模块, 其中, 自下而 上的特征融合模块用于对输入的图像序列进 行多低 级视觉特征的提取和融合得到视觉特征; 自上而 下的任务引导模块用于对输入的任务信息 进行特征提取后与视觉特征融合再经重 建得到重建特征, 根据重建特征进 行任务预测得到 任务预测结果; 特征推理模块用于对输入的视觉特征进行特征再提取得到新特征; 解码器 模块用于对输入的新特 征进行视 觉注意力预测并输出注意力概 率图; 构建损失函数, 损 失函数包括基于注意力概率图构建的预测损 失、 基于重建特征构建 的重建约束损失、 基于任务预测结果构建的任务约束损失; 根据样本数据和损 失函数对训练系统进行参数优化, 参数优化结束后, 提取参数确定 的自下而上的特 征融合模块、 时空推理模块以及解码器模块组成视 觉注意力预测模型; 利用视觉注意力预测模型进行视 觉主力预测。 2.根据权利要求1所述的任务驱动的视觉主力预测方法, 其特征在于, 所述自下而上的 特征融合模块对输入的图像序列从色彩、 对比度、 方向特征三个方面提取低级视觉特征, 然 后采用自我注意机制对三个方面的低级视觉特征进行对齐后再进 行特征相加, 得到视觉特 征。 3.根据权利要求1所述的任务驱动的视觉主力预测方法, 其特征在于, 所述自上而下的 任务引导模块中, 任务信息以图上标签的形式呈现, 其中, 任务标签包括用作粗粒度提示的 任务标签、 用作细粒度提示的子任务标签; 采用BERT模型对图像上任务标签和子任务标签 编码后再经过融合得到任务特征; 视觉特征经过池化操作后再与任务特征融合得到融合特 征; 采用AVE模 型对融合特征进 行重建以得到重 建特征; 采用多分类模 型对重建特征进 行任 务预测得到任务预测结果。 4.根据权利要求1所述的任务驱动的视觉主力预测方法, 其特征在于, 所述特征推理模 块中, 采用VG G模型对输入的视 觉特征进行特征再提取得到新特 征。 5.根据权利要求1所述的任务驱动的视觉主力预测方法, 其特征在于, 所述基于注意力 概率图构建的预测损失包括基于整图的预测损失 和基于像素的预测损失 具体表 示为: 其中, a表示注意力概率图, 表示注意力真值标签图, || ·||1表示1‑范数, aij表示第i 张图片第j个像素的注意力概率, 表示第i张图片第j个像素的注意力真值标签, ω为注 意力真值标签图 中注意区域 面积比,⊙表示点积操作, W和H分别表示图像的长和宽 。 6.根据权利要求1所述的任务驱动的视觉主力预测方法, 其特征在于, 所述基于重建特权 利 要 求 书 1/2 页 2 CN 115147677 A 2征构建的重建约束损失 表示为: 其中, fx表示对输入的任务信息进行特征提取后与视觉特征融合得到的融合特征, fx|z 表示重建特征, μ和σ 分别 表示根据融合特征fx学习得到的潜在特征fz的高斯分布的均值和 方差; 所述基于任务预测结果构建的任务约束损失 表示为: 其中, y表示任务预测结果, 表示任务真值, Fce(·)表示交叉熵损失的标准 函数。 7.根据权利要求1所述的任务驱动的视觉主力预测方法, 其特征在于, 所述利用视觉注 意力预测模型进行视 觉主力预测, 包括: 利用自下而上的特征融合模块对输入的图像进行多低级视觉特征的提取和融合得到 视觉特征; 利用特征推理模块对输入的视 觉特征进行特征再提取得到新特 征; 利用解码器模块对输入的新特 征进行视 觉注意力预测并输出注意力概 率图。 8.一种任务驱动的视觉主力预测装置, 包括存储器、 处理器以及存储在所述存储器中 并可在所述处理器上执行的计算机程序, 其特征在于, 所述存储器中存有通过权利要求 1‑7 任一项所述任务驱动的视觉主力预测方法构建的视觉注意力预测模型; 所述处理器执行所 述计算机程序时实现以下步骤: 接收图像序列; 调用视觉注意力预测模型对图像序列进行注意力预测, 包括: 利用自下而上的特征融 合模块对输入的图像进行多低级视觉特征的提取和融合得到视觉特征; 利用特征推理模块 对输入的视觉特征进 行特征再提取得到新特征; 利用解码器模块对输入的新特征进行视觉 注意力预测得到注意力概 率图; 输出注意力概 率图并以热力图形式进行 可视化呈现。 9.一种任务驱动的视觉主力预测系统, 包括客户端和服务器, 其特征在于, 所述客户端 用于通过页面接口接 收输入的图像序列, 并将图像序列传输至服务器; 还用于对注意力概 率图进行 可视化呈现; 所述服务器挂载有权利要求1 ‑7任一项所述的任务驱动的视觉主力预测方法构建的视 觉注意力预测模型, 用于利用视觉注意力预测模型对传入的图像序列进行注意力预测, 并 返回注意力概 率图至客户端。权 利 要 求 书 2/2 页 3 CN 115147677 A 3

.PDF文档 专利 一种任务驱动的视觉注意力预测方法、装置和系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种任务驱动的视觉注意力预测方法、装置和系统 第 1 页 专利 一种任务驱动的视觉注意力预测方法、装置和系统 第 2 页 专利 一种任务驱动的视觉注意力预测方法、装置和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:25:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。