全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210853133.8 (22)申请日 2022.07.07 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号 (72)发明人 韩冰 王海桐 申天啸 韩怡园  高新波 杨铮 周洋  (74)专利代理 机构 陕西电子 工业专利中心 61205 专利代理师 王品华 (51)Int.Cl. G06V 20/59(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/20(2022.01) G06V 10/42(2022.01) G06V 10/44(2022.01) (54)发明名称 基于注视点预测模型的驾驶员注视点预测 方法 (57)摘要 本发明公开了一种基于注视点预测模型的 驾驶员注视点预测方法, 主要解决现有技术不能 有效提取视频中的全局与局部特征, 导致注视点 预测不准确的问题。 其方案是: 读取基于真实道 路场景的驾驶员眼动视频数据构成训练集和测 试集, 并对其进行光照修正; 设置视觉时空注意 力层, 构建基于注视点预测模型的驾驶员眼动注 视点预测模 型; 将训练集输入到构建的预测模型 中, 得到训练集图像的初步预测结果; 用初步预 测结果和注视点真实值图像计算损失值, 利用梯 度下降法对眼动注视点预测模型进行网络参数 更新, 得到训练好的注视点预测模型; 将测试集 输入到训练好的预测模型中, 得到其注视点预测 结果。 本发明相比现有技术提高了预测精度, 可 用于智能驾驶辅助系统。 权利要求书3页 说明书8页 附图4页 CN 115147819 A 2022.10.04 CN 115147819 A 1.一种基于注视点预测模型的驾驶员注视点预测方法, 特 征在于, 包括如下步骤: (1)采集不同驾驶员在不同场景、 时间、 天气的行车驾驶视频, 并让驾驶员用眼动仪测 试对应的视频数据得到预测点的真实值视频, 将采集的原始视频和真实值视频一一对应打 包, 按照4∶ 1的比例分为训练集和 测试集; (2)构建注视点预测模型D: 2a)将视频中的每张图像分解为相同大小的若干个小块, 并将这些图像小块排成序列, 再将序列中的每 个图像小块编码成包 含每个时刻位置信息的特 征向量a: 2b)根据特征向量a, 计算得到最适合查找注视点区域的查询向量Q和提升查找注视点 区域准确率的键向量K: Q=WQa, K=WKa 其中, WQ、 WK分别为查询向量 Q和键向量K的权 重系数; 2c)根据查询向量 Q、 键向量K计算特 征向量a的注意力A ttention(Q, K): 其中, 表示视频中第n张图像的第t个图像小块的编码向量在s位置处的查询向量, 表示视频中第n张图像的第i个图像小块的编码向量在s位置处的键向量, 表示视频中第n张图像的第t个图像小块的编码向量在s位置处的键向量, 表示视频中第n ′张图像的第t ′个图像小块的编码向量在s位置处的键向量, N表示视频中图像的总数, T表示每幅图像中的图像块数目, n表示视频中的第n张图像, t表示每幅图像的第t个图像小块, s表示编码特征向量的位置, t ′表示对应时间邻域上的邻 接图像小块 集合, 其中 w∈{‑1, 0, 1}, b∈{ ‑1, 0, 1}; 2d)将现有视觉注意力模型Vit ‑T2T中视觉注意力层的计算部分替换为2c中设计的注 意力计算公式A ttention(Q, K), 构成视 觉时空注意力层, 得到新建注视点预测模型D; (3)对训练集进行光照修 正: 3a)计算训练集视频中第i幅图像F的平均光照度PMI, 并根据平均光照度PMI计算动态 序列的平均光照值ASI; 3b)设置图像平均光照强度PMI的最低阈值系数λ1=0.5, 最高阈值系数λ2=1.5, 按照如 下条件选择图像F最终的光照强度U: 3c)设置图像F的光照强度为U, 得到修改光照强度的图像F ′, 再利用Retinex算法调整 图像F′的亮度, 得到光照修 正图像F″: F″=Retinex(F′); (4)将全部光照修正图像F ″送入构建的注视点预测模型D, 采用梯度下降法对其进行训 练, 得到训练好的注视点预测模型; (5)对测试集按照与步骤(3)相同的方法进行光照修 正; (6)将光照修 正的测试集送入训练好的注视点预测模型, 得到预测的注视点图像。 2.根据权利要求1所述的方法, 其中步骤2a)将序列中的每个图像小块编码 成包含每个权 利 要 求 书 1/3 页 2 CN 115147819 A 2时刻位置信息的特 征向量a, 表示如下: a=[PE(pos, 0), PE(pos, 1), ..., PE(pos, 2z)PE(pos, 2z+1), ..., PE(pos, d‑2), PE(pos, d‑1)]T 其中, 表示图像中第pos个图像小块在2z维度处的编码特征 值, 表示图像中第pos个图像小块在2z+1维度处的编码特征值, pos表示图像小块在序列中的位置, d表 示向量总维度, 2z和2z+1分别表 示d中的偶数和奇数 维度, 3.根据权利要求1所述的方法, 其中步骤2d)得到的新建模型D, 包括一个全连接层和三 个视觉时空注意力层, 其输入为光照修正的图像, 该图像经过全连接层得到第一特征向量 V1, 第一特征向量V1经过第一视觉时空注意力层L1的输出和随机生成的分类令牌共同送入 到第二视觉时空注意力层L2中得到第二特征向量V2; 第二特征向量V2通过第三视觉时空注 意力层L3, 输出注视点预测结果。 4.根据权利要求1所述的方法, 其中步骤3a)中计算图像F(x, y)的平均光照强度PMI和 动态序列的平均光照值ASI, 公式如下: 其中, Wi、 Hi分别表示第i幅图像的宽度和高度, 分别表 示第i幅图像坐标(x, y)位置的RGB通道分量, r、 g、 b分别为各通道系数, 根据灰度转换公式, 分别取值 为0.299、 0.857和0.1 14。 5.根据权利要求1所述的方法, 其中, 步骤(4)中采用梯度下降法对构建的模型进行训 练, 实现如下: 4a)将现有的交叉熵损失函数设为注视点预测模型D的损失函数L oss: Loss=LBCE(P, G) 其中, P表示模型的初步预测结果, G表示标注的驾驶员眼动注视点真实值图像, pi和gi 分别表示P和G中第i个 像素的值, N表示G中的像素 数量; 4b)设置训练参数: 将视频帧图像大小统一设置为224 ×224, 批处理尺寸batch  size设 置为4, 优化器设置为Adam优化器, 初始学习率设置为0.001, 动量设置为0.9, 初始迭代次数 为10000; 4c)将一个批次的光照修正 图像F″输入到注视点预测模型D中, 得到单通道图像, 并使 用双线性上采样将其恢复到输入图像的尺寸, 得到初步预测结果P; 用初步预测结果P和标 记的注视点真实值图像G计算损失值loss, 利用梯度下降法对眼动注视点预测模型D进 行网 络参数更新; 4d)重复步骤4c), 每迭代20次, 学习率降低10倍, 当损失值loss在迭代10次内不下降权 利 要 求 书 2/3 页 3 CN 115147819 A 3

PDF文档 专利 基于注视点预测模型的驾驶员注视点预测方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于注视点预测模型的驾驶员注视点预测方法 第 1 页 专利 基于注视点预测模型的驾驶员注视点预测方法 第 2 页 专利 基于注视点预测模型的驾驶员注视点预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。