全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211177185.4 (22)申请日 2022.09.26 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市高新园区凌工 路2号 (72)发明人 李琳辉 方敏航 王政皓 赵剑  连静  (74)专利代理 机构 大连东方专利代理有限责任 公司 21212 专利代理师 鲁保良 李洪福 (51)Int.Cl. G06V 20/58(2022.01) G06V 20/56(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01)G06V 10/764(2022.01) G06V 10/44(2022.01) G06V 10/26(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向交通场景的可扩展多任务视觉感 知方法 (57)摘要 本发明公开了一种面向交通场景的可扩展 多任务视觉感知方法, 包括以下步骤: 设计多任 务视觉感知模 型整体架构; 搭建主干特征提取网 络搭建任务分支网络; 训练网络; 检测多任务网 络。 本发明将主干特征提取网络与分支网络分开 训练并保存权重的方法, 提高了整个模型在交通 场景中多任务检测的实时性, 同时兼顾了模型的 可扩展性。 本发明通过增加边路权重分支网络设 计了卷积多通道注意力残差模块, 既可以缓解尺 度变化带来的问题, 又使网络更加关注需要检测 的物体, 可以有效忽略背景的干扰。 本发明不仅 缓解了视觉多任务检测 需要占用大量硬件资源 的问题, 提高了网络的实时性, 又提高了网络的 可扩性, 使其可以适应新的任务需求。 权利要求书4页 说明书7页 附图4页 CN 115482518 A 2022.12.16 CN 115482518 A 1.一种面向交通场景的可扩展 多任务视 觉感知方法, 其特 征在于: 包括以下步骤: A、 设计多任务视 觉感知模型整体架构 多任务视觉感知模型整体架构由主干特征提取网络与任务分支网络组成; 主干特征提 取网络由一系列卷积层和多通道注意力残差模块堆叠而成, 搭建完主干特征提取网络后, 对主干特征提取网络进行训练, 调整主干特征提取网络中的参数, 并将调整完的参数保存 下来, 然后将主干特征提取网络最后三层的输出输入到候选框生成网络后, 经候选框映射 模块处理后分别同时输入到任务分支网络中, 所述任务分支网络包括 目标检测分支网络、 人体关键点检测分支网络、 可行驶区域分割分支网络和车道线检测分支网络, 其中车道线 检测分支网络与可行驶区域分支网络合并为一个任务分支网络且由可行驶区域分割分支 网络同时实现可行驶区域分割分支网络和车道线检测分支网络的功能, 目标检测分支网络 由卷积层、 池化层和批归一化层串联而成, 人体关键点检测分支网络和可行驶区域分割分 支以及车道线检测分支网络由一系列反卷积层串联而成, 搭建完成任务分支网络后, 对任 务分支网络分别进行训练, 将训练完得到的任务分支网络参数保存下来, 最后通过加载主 干特征提取网络的参数和任务分支网络的参数对车载摄像头获取的图像进 行预测, 具体步 骤如下: A1、 将车载摄像头获取的图像输入主干特 征提取网络得到特 征图; A2、 将得到的特征图送入到候选框生成网络中, 得到候选框后, 通过候选框映射模块将 候选框映射到下采样后的特 征图中; A3、 将候选框映射后的特征图并行送入到目标检测分支网络与人体关键点检测分支网 络; A4、 在进行人体关键点检测分支网络的检测时, 将目标检测得到的目标框与人体关键 点检测的候选区域进行耦合, 使得有人体区域 为人体关键点检测分支网络的感兴趣区域; A5、 将主干特征提取网络得到的特征图经过特征金字塔后进入可行驶区域分割分支网 络与车道线检测分支网络对特征图进 行上采样, 得到可行使区域的分割与车道线检测的结 果, 并将最终的结果在最 开始车载摄像头获取的图像上 标出; B、 搭建主干特 征提取网络 主干特征提取网络借鉴纯卷积网络结构, 设计卷积多通道注意力残差模块即Conv ‑MA‑ Next Block, 将卷积多通道 注意力残差模块 堆叠组成主干特 征提取网络, 具体步骤如下: B1、 首先使用卷积对车载摄像头获取的图像进行下采样得到特征图, 下采样之后使用 层归一化技术对下采样特 征图进行归一 化处理; B2、 搭建卷积多通道注意力残差模块; 卷积多通道注意力残差模块采用深度可分离卷 积, 然后将特征图先升维后降维, 减少网络参数量; 卷积多通道注意力残差模块分支网络表 示为: G(x)=Sigmo id(BN(Co nv(GE(BN(Co nv(GE(g(x) ))))))) 式中, x表示输入的特 征图; G(x)表示经 过通过注意力分支网络得到的通道权 重; Sigmoid表示激活函数, 其 函数表达式为 BN表示批归一 化层, 将输入BN层的数据转 化为均值为0, 方差为1的分布;权 利 要 求 书 1/4 页 2 CN 115482518 A 2Conv表示卷积 操作, 卷积是指以一个指定大小的矩阵数据与输入的数据相乘; GE表示名为GELU激活函数, GELU激活函数的函数表达式为GELU(x)=x ·Φ(x), Φ(x) 表示高斯分布的积累概 率分布, 即在( ‑∞,x]区间对高斯分布的定积分; g(x)表示全局池化; 最终将得到的通道权重G(x)与原特征图相乘使主干特征提取网络更关注有目标的区 域; 卷积多通道 注意力残差模块的公式表示 为: C(x)=G(x) ·dropout(Lscale(Co nv(GE(Co nv(BN(dwCo nv(x))))))) 式中, dropout 表示随机关闭一些通道, 使其失去作用; Lscale表是通道缩放, 以一定的比例减小特 征图的通道数量; dwConv表示深度可分离卷积, 将输入的数据按维度进行 卷积; B3、 将搭建完的卷积多通道注意力残差模块以不同的维度按比例进行堆叠; 其具体公 式如下: output=a ·C(b·C(c·C(d·C(x)))) 式中, C表示卷积多通道 注意力残差模块; a、 b、 c、 d均为整数, 表示 不同的比例; Output表示输出; C、 搭建任务分支网络 搭建目标检测分支网络、 人体关键点检测分支网络以及可行驶 区域分割分支网络分别 实现对交通场景中行人和车辆的识别、 人体关键点的检测、 可行驶区域分割以及车道线检 测的功能; 具体步骤如下: C1、 搭建目标检测分支网络 目标检测分支网络由两个全连接层组成, 在全连接层之后分为类别预测和目标检测框 回归; 目标检测分支网络的损失函数为: 式中, pi表示第i个候选 框预测为真实标签的概 率; 表示候选框内的样本为 正样本时为1, 为负 样本时为0; ti表示预测第i个候选 框的边界框回归参数; 表示第i个候选 框对应的真实框参数; Ncls表示一次训练输入的样本数量; Nreg表示候选框位置的个数; Lcls表示分类损失, 采用如下式所示 二值交叉熵损失: Lreg表示回归损失, 公式如下: 权 利 要 求 书 2/4 页 3 CN 115482518 A 3

PDF文档 专利 一种面向交通场景的可扩展多任务视觉感知方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向交通场景的可扩展多任务视觉感知方法 第 1 页 专利 一种面向交通场景的可扩展多任务视觉感知方法 第 2 页 专利 一种面向交通场景的可扩展多任务视觉感知方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。