专利一种任务驱动的视觉注意力预测方法、装置和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210751774.2 (22)申请日 2022.06.28 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人厉向东　滕佳琪　阴凯琳　 (74)专利代理机构杭州天勤知识产权代理有限公司 33224 专利代理师曹兆霞 (51)Int.Cl. G06V 10/774(2022.01) G06N 5/04(2006.01) G06N 20/00(2019.01) G06V 10/764(2022.01) G06V 10/77(2022.01)G06V 10/80(2022.01) (54)发明名称一种任务驱动的视觉注意力预测方法、装置和系统 (57)摘要本发明公开了一种任务驱动的视觉注意力预测方法、装置和系统，通过基于自下而上的多低级视觉特征的融合和任务信息的引导来构建视觉注意力预测模型，使得模型能够实现更普通人群在信息浏览、导航、搜索等交互任务下的视觉注意力预测，提高基于任务状态下预测结果的准确度。权利要求书2页说明书7页附图2页 CN 115147677 A 2022.10.04 CN 115147677 A 1.一种任务驱动的视觉主力预测方法，其特征在于，包括以下步骤：获取图像序列，并对图像序列进行噪声数据清洗和数据增强，以作为样本数据；构建训练系统，训练系统包括自下而上的特征融合模块、自上而下的任务引导模块、特征推理模块、解码器模块，其中，自下而上的特征融合模块用于对输入的图像序列进行多低级视觉特征的提取和融合得到视觉特征；自上而下的任务引导模块用于对输入的任务信息进行特征提取后与视觉特征融合再经重建得到重建特征，根据重建特征进行任务预测得到任务预测结果；特征推理模块用于对输入的视觉特征进行特征再提取得到新特征；解码器模块用于对输入的新特征进行视觉注意力预测并输出注意力概率图；构建损失函数，损失函数包括基于注意力概率图构建的预测损失、基于重建特征构建的重建约束损失、基于任务预测结果构建的任务约束损失；根据样本数据和损失函数对训练系统进行参数优化，参数优化结束后，提取参数确定的自下而上的特征融合模块、时空推理模块以及解码器模块组成视觉注意力预测模型；利用视觉注意力预测模型进行视觉主力预测。 2.根据权利要求1所述的任务驱动的视觉主力预测方法，其特征在于，所述自下而上的特征融合模块对输入的图像序列从色彩、对比度、方向特征三个方面提取低级视觉特征，然后采用自我注意机制对三个方面的低级视觉特征进行对齐后再进行特征相加，得到视觉特征。 3.根据权利要求1所述的任务驱动的视觉主力预测方法，其特征在于，所述自上而下的任务引导模块中，任务信息以图上标签的形式呈现，其中，任务标签包括用作粗粒度提示的任务标签、用作细粒度提示的子任务标签；采用BERT模型对图像上任务标签和子任务标签编码后再经过融合得到任务特征；视觉特征经过池化操作后再与任务特征融合得到融合特征；采用AVE模型对融合特征进行重建以得到重建特征；采用多分类模型对重建特征进行任务预测得到任务预测结果。 4.根据权利要求1所述的任务驱动的视觉主力预测方法，其特征在于，所述特征推理模块中，采用VG G模型对输入的视觉特征进行特征再提取得到新特征。 5.根据权利要求1所述的任务驱动的视觉主力预测方法，其特征在于，所述基于注意力概率图构建的预测损失包括基于整图的预测损失和基于像素的预测损失具体表示为：其中， a表示注意力概率图，表示注意力真值标签图， || ·||1表示1‑范数， aij表示第i 张图片第j个像素的注意力概率，表示第i张图片第j个像素的注意力真值标签， ω为注意力真值标签图中注意区域面积比，⊙表示点积操作， W和H分别表示图像的长和宽。 6.根据权利要求1所述的任务驱动的视觉主力预测方法，其特征在于，所述基于重建特权　利　要　求　书 1/2 页 2 CN 115147677 A 2征构建的重建约束损失表示为：其中， fx表示对输入的任务信息进行特征提取后与视觉特征融合得到的融合特征， fx|z 表示重建特征， μ和σ 分别表示根据融合特征fx学习得到的潜在特征fz的高斯分布的均值和方差；所述基于任务预测结果构建的任务约束损失表示为：其中， y表示任务预测结果，表示任务真值， Fce(·)表示交叉熵损失的标准函数。 7.根据权利要求1所述的任务驱动的视觉主力预测方法，其特征在于，所述利用视觉注意力预测模型进行视觉主力预测，包括：利用自下而上的特征融合模块对输入的图像进行多低级视觉特征的提取和融合得到视觉特征；利用特征推理模块对输入的视觉特征进行特征再提取得到新特征；利用解码器模块对输入的新特征进行视觉注意力预测并输出注意力概率图。 8.一种任务驱动的视觉主力预测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述存储器中存有通过权利要求 1‑7 任一项所述任务驱动的视觉主力预测方法构建的视觉注意力预测模型；所述处理器执行所述计算机程序时实现以下步骤：接收图像序列；调用视觉注意力预测模型对图像序列进行注意力预测，包括：利用自下而上的特征融合模块对输入的图像进行多低级视觉特征的提取和融合得到视觉特征；利用特征推理模块对输入的视觉特征进行特征再提取得到新特征；利用解码器模块对输入的新特征进行视觉注意力预测得到注意力概率图；输出注意力概率图并以热力图形式进行可视化呈现。 9.一种任务驱动的视觉主力预测系统，包括客户端和服务器，其特征在于，所述客户端用于通过页面接口接收输入的图像序列，并将图像序列传输至服务器；还用于对注意力概率图进行可视化呈现；所述服务器挂载有权利要求1 ‑7任一项所述的任务驱动的视觉主力预测方法构建的视觉注意力预测模型，用于利用视觉注意力预测模型对传入的图像序列进行注意力预测，并返回注意力概率图至客户端。权　利　要　求　书 2/2 页 3 CN 115147677 A 3

专利 一种任务驱动的视觉注意力预测方法、装置和系统

专利一种任务驱动的视觉注意力预测方法、装置和系统