全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210137919.X (22)申请日 2022.02.15 (71)申请人 北京深睿博 联科技有限责任公司 地址 100080 北京市海淀区海淀大街8号A 座21层A区 申请人 杭州深睿博 联科技有限公司 (72)发明人 张树 马杰超 俞益洲 李一鸣  乔昕  (74)专利代理 机构 北京天方智力知识产权代理 事务所(普通 合伙) 11719 专利代理师 路远 (51)Int.Cl. G06V 10/80(2022.01) G06K 9/62(2022.01) (54)发明名称 一种基于多模态图像融合的目标检测方法 及装置 (57)摘要 本发明提供一种基于多模态图像融合的目 标检测方法及装置。 所述方法包括: 实时获取视 频 图 像 和 红 外 图 像 ,并 分 别 输 入 至 由 Transformer构成的目标检测模型; 对所述视频 图像和红外图像 分别进行全局特征提取; 对提取 的视频图像特征和红外图像特征进行融合; 将视 频 图 像 和 红 外 图 像 的 融 合 特 征 输 入 由 Transformer全连接层构成的预测模块, 输出目 标类别和目标位置。 本发明利用纯Transformer 构建目标检测模型, 可充分发挥Transformer整 体结构带来的模 型优势; 本发明基于视频图像和 红外图像的特征融合进行目标检测, 可以实现任 何光照条件 下的目标检测, 解决了现有检测系统 在夜晚等 黑暗环境下检测效果差的问题。 权利要求书2页 说明书7页 附图4页 CN 114694001 A 2022.07.01 CN 114694001 A 1.一种基于多模态图像融合的目标检测方法, 其特 征在于, 包括以下步骤: 实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外图像, 并分别输入至 由Transformer构成的目标检测模型; 利用由Transformer编码器构成的特征编码模块对所述视频图像和红外图像分别 进行 全局特征提取; 利用由Transformer解码器构成的特征融合模块对提取的视频图像特征和红外图像特 征进行融合; 将视频图像和红外图像的融合特征输入由Transformer全连接层构成的预测模块, 输 出目标类别和目标位置 。 2.根据权利要求1所述的基于多模态图像融合的目标检测方法, 其特征在于, 所述方法 在进行全局特 征提取前还包括对输入的视频图像和红外图像分别进行的如下操作: 将图像切割成N个切片; 将每个切片在通道维度展开, 输入至一个线性全连接层得到一个d维向量; 计算切片行和列 方向的正余弦位置编码, 并加至线性全连接层的输出得到N ×d编码矩 阵。 3.根据权利要求2所述的基于多模态图像融合的目标检测方法, 其特征在于, 所述特征 编码模块由Transformer编码器堆叠而成, 每个Transformer编码器包括一个多头自注意力 模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元; 输入到多头自注意 力模块的视频图像或红外图像的N ×d编码矩阵, 经过三种不同的线性变换得到大小为N × d'的查询向量、 键向量和值向量, 查询向量和键向量之间通过带缩放系 数的向量点积计算 相似度, 并经softmax函数归一化后获得注 意力权重矩阵, 所述权重矩阵与值向量相乘后得 到一路注意力结果; 将多路注意力结果拼接后再映射回原来的维度d', 得到视频图像或红 外图像的特 征编码。 4.根据权利要求3所述的基于多模态图像融合的目标检测方法, 其特征在于, 所述特征 融合模块由Transformer解码器堆叠而成, 每个Transformer解码器包括一个多头自注意力 模块层、 一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残 差单元; 第i个Transformer解码器的多头 互注意力模块层的询问向量Qi来自多头自注意力 模块层的输出, 键向量Ki和值向量Vi分别来自特征编码模块输出的视频图像特征A和红外图 像特征B; 第i +1个Transformer解码器的多头互注意力模块层的询问向量Qi+1来自多头自注 意力模块层的输出, 键向量Ki+1和值向量Vi+1分别来自B和A; 键向量Ki和值向量Vi均为N×d' 矩阵, 询问 向量Qi为N'×d'矩阵, N'<N; i =1,2,…。 5.根据权利要求1所述的基于多模态图像融合的目标检测方法, 其特征在于, 所述方法 还包括: 根据目标类别和目标位置判断危险目标及其方位, 并发出危险预警信息 。 6.一种基于多模态图像融合的目标检测装置, 其特 征在于, 包括: 图像获取模块, 用于实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外 图像, 并分别输入至由Transformer构成的目标检测模型; 特征提取模块, 用于利用由Transformer编码器构成的特征编码模块对所述视频 图像 和红外图像分别进行全局特 征提取; 特征融合模块, 用于利用由Transformer解码器构成的特征融合模块对提取的视频 图权 利 要 求 书 1/2 页 2 CN 114694001 A 2像特征和红外图像特 征进行融合; 目标预测模块, 用于将视频 图像和红外图像的融合特征输入由Transformer全连接层 构成的预测模块, 输出目标类别和目标位置 。 7.根据权利要求6所述的基于多模态图像融合的目标检测装置, 其特征在于, 所述装置 还包括向量嵌入 模块, 用于: 将图像切割成N个切片; 将每个切片在通道维度展开, 输入至一个线性全连接层得到一个d维向量; 计算切片行和列 方向的正余弦位置编码, 并加至线性全连接层的输出得到N ×d编码矩 阵。 8.根据权利要求7所述的基于多模态图像融合的目标检测装置, 其特征在于, 所述特征 编码模块由Transformer编码器堆叠而成, 每个Transformer编码器包括一个多头自注意力 模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元; 输入到多头自注意 力模块的视频图像或红外图像的N ×d编码矩阵, 经过三种不同的线性变换得到大小为N × d'的查询向量、 键向量和值向量, 查询向量和键向量之间通过带缩放系 数的向量点积计算 相似度, 并经softmax函数归一化后获得注 意力权重矩阵, 所述权重矩阵与值向量相乘后得 到一路注意力结果; 将多路注意力结果拼接后再映射回原来的维度d', 得到视频图像或红 外图像的特 征编码。 9.根据权利要求8所述的基于多模态图像融合的目标检测装置, 其特征在于, 所述特征 融合模块由Transformer解码器堆叠而成, 每个Transformer解码器包括一个多头自注意力 模块层、 一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残 差单元; 第i个Transformer解码器的多头 互注意力模块层的询问向量Qi来自多头自注意力 模块层的输出, 键向量Ki和值向量Vi分别来自特征编码模块输出的视频图像特征A和红外图 像特征B; 第i +1个Transformer解码器的多头互注意力模块层的询问向量Qi+1来自多头自注 意力模块层的输出, 键向量Ki+1和值向量Vi+1分别来自B和A; 键向量Ki和值向量Vi均为N×d' 矩阵, 询问 向量Qi为N'×d'矩阵, N'<N; i =1,2,…。 10.根据权利要求6所述的基于多模态图像融合的目标检测装置, 其特征在于, 所述装 置还包括危险预警模块, 用于根据目标类别和目标位置判断危险目标及其方位, 并发出危 险预警信息 。权 利 要 求 书 2/2 页 3 CN 114694001 A 3

.PDF文档 专利 一种基于多模态图像融合的目标检测方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多模态图像融合的目标检测方法及装置 第 1 页 专利 一种基于多模态图像融合的目标检测方法及装置 第 2 页 专利 一种基于多模态图像融合的目标检测方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:16:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。