全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210828498.5 (22)申请日 2022.07.13 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 周德森 王健 孙昊  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/82(2022.01) G06V 10/44(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 人物交互检测方法、 装置、 设备以及存储介 质 (57)摘要 本公开提供了一种人物交互检测方法、 装 置、 设备、 存储介质以及程序产品, 涉及人工智能 技术领域, 具体涉及图像处理、 计算机视觉和深 度学习等技术领域, 可应用于智慧城市等场景。 该方法的一具体实施方式包括: 提取待检测图像 的全局特征; 将全局特征输入至预先训练的基础 解码器, 得到多个候选三元组; 将多个候选三元 组分别输入至预先训练的物体检测解码器和预 先训练的交互解码器, 得到多对 人体物体交互信 息和多个交互动作信息; 将多对 人体物体交互信 息和多个交互动作信息对应组合, 得到多个人体 物体动作三元组。 该实施方式通过引入基础解码 器, 解决匹配误差和联合分布的问题。 权利要求书3页 说明书8页 附图3页 CN 114973333 A 2022.08.30 CN 114973333 A 1.一种人物交 互检测方法, 包括: 提取待检测图像的全局特 征; 将所述全局特 征输入至预 先训练的基础解码器, 得到多个候选三元组; 将所述多个候选三元组分别输入至预先训练的物体检测解码器和预先训练的交互解 码器, 得到多对人体物体交 互信息和多个交 互动作信息; 将所述多对人体物体交互信 息和所述多个交互动作信 息对应组合, 得到多个人体物体 动作三元组。 2.根据权利要求1所述的方法, 其中, 所述基础解码器包括第一预设数目个解码器层, 所述物体检测解码器包括第二预设数目个解码器层, 所述交互解码 器包括第三预设数目个 解码器层, 每 个解码器层包括交 互注意力层、 自注意力层和前向层。 3.根据权利要求1或2所述的方法, 其中, 所述基础解码器采用人体检测框损失函数、 物 体检测框损失函数和 动作分类损失函数进 行训练获得, 所述物体检测解码器采用人体检测 框损失函数和物体检测框损失函数进 行训练获得, 所述交互解码 器采用动作分类损失函数 进行训练获得, 其中, 所述人体检测框损失函数用于表征预测人体边界框与真实人体边界 框的差异, 所述物体检测框损失函数用于表征预测物体边界框与真实物体边界框的差异, 所述动作分类损失函数用于表征 预测动作类别与真实动作类别的差异。 4.根据权利要求3所述的方法, 其中, 所述人体检测框损失函数通过计算所述预测人体 边界框与所述真实人体边界框的绝对距离和交并比的加权和得到, 所述物体检测框损失函 数通过计算所述预测物体边界框与所述真实物体边界框的绝对距离和交并比的加权和, 再 结合物体类别的交叉熵损失得到, 所述动作分类损失函数通过计算所述预测 动作类别与所 述真实动作类别的焦点损失得到 。 5.根据权利要求1 ‑4中任一项所述的方法, 其中, 所述将所述全局特征输入至基础解码 器, 得到多个候选三元组, 包括: 利用所述基础解码器的多个三元组查询, 对所述全局特征进行特征提取, 得到所述多 个候选三元组。 6.根据权利要求1 ‑5中任一项所述的方法, 其中, 所述将所述多个候选三元组分别输入 至物体检测解码器和交 互解码器, 得到多对人体物体交 互信息和多个交 互动作信息, 包括: 将所述多个候选三元组作为所述物体检测解码器的初始化特征, 预测所述多个候选三 元组的人体和物体所在的位置以及物体 类别; 将所述多个候选三元组作为所述交互解码器的初始化特征, 预测所述多个候选三元组 的交互动作类别。 7.根据权利要求1 ‑6中任一项所述的方法, 其中, 所述提取待检测图像的全局特征, 包 括: 将所述待检测图像输入至残差网络, 得到所述待检测图像的像素 特征; 将所述像素 特征输入至图像编码器, 得到所述全局特 征。 8.一种人物交 互检测装置, 包括: 提取模块, 被 配置成提取待检测图像的全局特 征; 第一解码模块, 被配置成将所述全局特征输入至预先训练的基础解码器, 得到多个候 选三元组;权 利 要 求 书 1/3 页 2 CN 114973333 A 2第二解码模块, 被配置成将所述多个候选三元组分别输入至预先训练 的物体检测解码 器和预先训练的交 互解码器, 得到多对人体物体交 互信息和多个交 互动作信息; 组合模块, 被配置成将所述多对人体物体交互信息和所述多个交互动作信息对应组 合, 得到多个人体物体动作三元组。 9.根据权利要求8所述的装置, 其中, 所述基础解码器包括第一预设数目个解码器层, 所述物体检测解码器包括第二预设数目个解码器层, 所述交互解码 器包括第三预设数目个 解码器层, 每 个解码器层包括交 互注意力层、 自注意力层和前向层。 10.根据权利要求8或9所述的装置, 其中, 所述基础解码器采用人体检测框损 失函数、 物体检测框损失函数和 动作分类损失函数进 行训练获得, 所述物体检测解码 器采用人体检 测框损失函数和物体检测框损失函数进行训练获得, 所述交互解码 器采用动作分类损失函 数进行训练获得, 其中, 所述人体检测框损失函数用于表征预测人体边界框与真实人体边 界框的差异, 所述物体检测框损失函数用于表征预测物体边界框与真实物体边界框的差 异, 所述动作分类损失函数用于表征 预测动作类别与真实动作类别的差异。 11.根据权利要求10所述的装置, 其中, 所述人体检测框损失函数通过计算所述预测人 体边界框与所述真实人体边界框的绝对距离和交并比的加权和得到, 所述物体检测框损失 函数通过计算所述预测物体边界框与所述真实物体边界框的绝对距离和交并比的加权和, 再结合物体类别的交叉熵损失得到, 所述动作分类损失函数通过计算所述预测动作类别与 所述真实动作类别的焦点损失得到 。 12.根据权利要求8 ‑11中任一项所述的装置, 其中, 所述第一解码模块进一步被配置 成: 利用所述基础解码器的多个三元组查询, 对所述全局特征进行特征提取, 得到所述多 个候选三元组。 13.根据权利要求8 ‑12中任一项所述的装置, 其中, 所述第二解码模块进一步被配置 成: 将所述多个候选三元组作为所述物体检测解码器的初始化特征, 预测所述多个候选三 元组的人体和物体所在的位置以及物体 类别; 将所述多个候选三元组作为所述交互解码器的初始化特征, 预测所述多个候选三元组 的交互动作类别。 14.根据权利要求8 ‑13中任一项所述的装置, 其中, 所述 提取模块进一 步被配置成: 将所述待检测图像输入至残差网络, 得到所述待检测图像的像素 特征; 将所述像素 特征输入至图像编码器, 得到所述全局特 征。 15.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑7中任一项所述的方法。 16.一种存储有计算机指令的非瞬时计算机可读存储介质, 所述计算机指令用于使所 述计算机执 行权利要求1 ‑7中任一项所述的方法。 17.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根权 利 要 求 书 2/3 页 3 CN 114973333 A 3

PDF文档 专利 人物交互检测方法、装置、设备以及存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 人物交互检测方法、装置、设备以及存储介质 第 1 页 专利 人物交互检测方法、装置、设备以及存储介质 第 2 页 专利 人物交互检测方法、装置、设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。