全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210864552.1 (22)申请日 2022.07.21 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市下城区潮王路 18号 (72)发明人 刘盛 张峰 陈俊皓 郭炳男  陈瑞祥  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 忻明年 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于DETR的人物成对解码交互的人与物交 互检测方法 (57)摘要 本发明公开了一种基于DETR的人物成对解 码交互的人与物交互检测方法, 将图片通过训练 好的DETR模型, 获得人物目标框、 目标类别和查 询向量, 从而减少模型训练时间。 然后将查询向 量和目标类别输入到查询向量分类器, 得到人的 查询向量、 物的查询向量和物的类别; 将物的类 别输入到语义网络, 得到物的语义查询向量, 融 合物的查询向量和物的语义查询向量, 得到融合 的物查询向量, 将融合的物查询向量和人的查询 向量进行合并, 得到对象查询向量。 最后将对象 查询向量输入到成对融合检测网络, 实现人物交 互检测。 本发明提高了人与物交互检测的精度, 扩大了网络的感受野, 提高了网络的性能。 权利要求书2页 说明书7页 附图5页 CN 115147931 A 2022.10.04 CN 115147931 A 1.一种基于DETR的人物成对解码交互的人与物交互检测方法, 其特征在于, 所述基于 DETR的人物成对解码交 互的人与物交 互检测方法, 包括: 将原始图像经过骨干网络得到的特征图注入训练好DETR网络, 所述DETR网络包括编码 器、 解码器和 MLP层, 获得解码器输出的查询向量, 以及DETR网络最终输出的目标框及目标 类别; 将查询向量和目标类别输入到查询向量分类器, 得到人的查询向量、 物的查询向量和 物的类别; 将物的类别输入到语义网络, 得到物的语义 查询向量; 融合物的查询向量和物的语义查询向量, 得到融合的物查询向量, 将融合的物查询向 量和人的查询向量进行合并, 得到对象查询向量; 将对象查询向量输入到成对融合检测网络, 实现人物交 互检测。 2.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法, 其特 征在于, 所述语义网络包括空间注意力模块和语义聚合模块, 所述语义空间注意力模块输 入特征为数据集的动词嵌入向量, 输出语义空间注意力特 征; 所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征 和查询向量分类器输出的物的类别, 语义空间注意力特征通过线性层、 ReLU激活函数、 线性 层、 sigmoid激活函数得到注意力 特征, 与物的类别通过另一个线性层得到的特征相乘, 将 结果依次通过线性层、 归一化层、 ReLU激活函数和线性层后加上物的类别, 然后输入到 Transformer层得到物的语义 查询向量。 3.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法, 其特 征在于, 所述融合物的查询向量和物的语义 查询向量, 得到融合的物查询向量, 包括: 将物的查询向量和物的语义查询向量相加后通过ReLU激活函数, 减去物的查询向量和 物的语义 查询向量相减后的平方。 4.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法, 其特 征在于, 所述成对融合检测网络依次包括改进的Transformer编码器、 成对融合模块、 Transformer解码器和MLP层; 所述改进的Transformer编码器, 输入特征分别是对象查询向量和成对框位置编码, 在 改进的Transformer编码 器中, 将对象查询向量配对后与成对框位置编码结合, 通过线性层 和sigmoid激活函数, 得到第一分支的输出; 将对象查询向量复制后与成对框位置编码元素 相乘, 得到第二分支的输出; 将两个分支的输出元素相乘后通过线性层, 并与输入的对象查 询向量相加, 再 经过归一化层, 前向传播层和归一 化层, 输出成对查询向量; 在成对融合模块中, 成对查询向量分别与成对框位置编码和经过自适应平均池化的全 局视觉特征进行结合操作后, 经过线性层后相乘, 之后依次经过ReLU激活函数、 线性层和 ReLU激活函数 得到最后的融合了多种特 征的成对查询向量; 将融合了多种特征的成对查询向量经过Transformer解码器解码后, 输出MLP中, 得到 人‑物交互动作的概 率分数, 从而完成对人 ‑物交互动作的检测。 5.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法, 其特 征在于, 所述基于DETR的人物成对解码交 互的人与物交 互检测方法, 还 包括: 计算网络整体损失函数, 进行反向传播, 更新网络参数;权 利 要 求 书 1/2 页 2 CN 115147931 A 2其中, 网络整体损失函数为: Ltotal=La+LSKL 其中, Ltotal表示整体损失函数, La和LSKL分别表示动词交叉熵损失函数和语义相对熵损 失函数; 所述的动词交叉熵损失函数La为: 其中, Nq表示为动词的种类数量, 表示为统计与物体 对应的预测动词类别数量, Φ表示总共的真实值的集合, 表示在预测集合中, lf为焦 点损失, lf(pt)=‑αt(1‑pt)γlog(pt), αt为抑制正负样本参数 失衡参数, γ为控制简易/困难 样本数量失衡参数, pt为样本, 其中 表示真实动词类别; 所述的语义相对熵损失函数LSKL为: 其中 是数据集中动词对称条件分布, A是语义空间注意力模块处理过的动词的邻接矩 阵, 是KL散度损失函数; 可以通过以下计算获得: 其中Np是数据集中动词数量, cij为: A可以通过以下计算获得: 其中τ是缩放归一化语义内积so ftmax分布的温度参数, 是语义空间注意力模块处理 过的动词嵌入向量, T是转置符号。权 利 要 求 书 2/2 页 3 CN 115147931 A 3

.PDF文档 专利 基于DETR的人物成对解码交互的人与物交互检测方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于DETR的人物成对解码交互的人与物交互检测方法 第 1 页 专利 基于DETR的人物成对解码交互的人与物交互检测方法 第 2 页 专利 基于DETR的人物成对解码交互的人与物交互检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:29:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。