全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210431685.X (22)申请日 2022.04.22 (71)申请人 北京昭衍新药研究中心 股份有限公 司 地址 100176 北京市大兴区经济技 术开发 区荣京东 街甲5号 (72)发明人 张素才 杨森 左从林 高大鹏  彭霞 马金玲  (74)专利代理 机构 北京律谱知识产权代理有限 公司 11457 专利代理师 黄云铎 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称 一种基于局部和全局时空特征的群体猴子 动作识别方法 (57)摘要 本申请公开了一种基于局部和全局时空特 征的群体猴子动作识别方法, 包括: 构建动作识 别网络模型, 并利用猴群动作数据库对动作识别 网络模型进行训练, 其中, 动作识别网络模型中 设置有融合模块以及时间整合模块; 对采集到的 视频数据进行分帧处理, 在分帧后的视频数据中 随机选取多张连续帧, 并按照通道维度进行拼 接, 生成关键帧; 将关键帧作为输入数据, 输入至 训练好的动作识别网络模型, 利用动作识别网络 模型输出视频数据中猴子动作的动作预测结果。 通过本申请中的技术方案, 解决了饲养状态下的 群体猴子动作视频或者图像识别的问题。 权利要求书2页 说明书8页 附图4页 CN 114842554 A 2022.08.02 CN 114842554 A 1.一种基于局部和全局时空特征的群体猴子动作识别方法, 其特征在于, 所述方法包 括: 构建动作识别网络模型, 并利用猴群动作数据库对所述动作识别网络模型进行训练, 其中, 所述动作识别网络模型中设置有融合模块以及时间整合模块, 所述融合模块用于对输入数据进行时空信息融合, 生成融合特 征图, 所述时间整合模块用于分别提取所述融合特征图中的时间信 息和空间信 息, 并将所述 时间信息和所述空间信息在所述融合特征图的第二个维度上进行拼接, 生成时空特征图, 所述时空特 征图用于动作预测; 对采集到的视频数据进行分帧处理, 在分帧后的视频数据中随机选取多张连续帧, 并 按照通道维度进行拼接, 生成关键帧; 将所述关键帧作为所述输入数据, 输入至训练好的动作识别网络模型, 利用所述动作 识别网络模型输出 所述视频 数据中猴子动作的动作预测结果。 2.如权利要求1所述的基于局部和全局时空特征的群体猴子动作识别方法, 其特征在 于, 所述融合模块用于对输入数据进行时空信息融合, 生成融合特 征图, 具体包括: 利用卷积核大小为1*1的conv2模块对所述输入数据进行特征图处理, 生成第一特征图 x, 其中, 所述第一特 征图x的维度为(N, C2, H, W); 利用卷积核大小为3*3*3的con3模块对所述第一特征图x进行0填充, 生成第二特征图f (x), 其中, 所述第二特 征图f(x)的维度为(N, C3, H, W); 采用unsqueeze操作对所述第 一特征图x的维度扩充为(N, C2, 1, H, W), 将所述第二特征 图f(x)的维度 扩充为(N, 1, C3, H, W), 并将维度 扩充后的第一特征图x、 第二特征图f(x)进行 哈达玛积运算, 生成第三特 征图, 其中, 所述第三特 征图的维度为(N, C2, C3, H, W); 利用Pool层和shift移位操作对所述第三特征图进行维度调整, 将所述第三特征图的 维度调整为(N, C2, H, W), 生成第四特 征图; 利用ResNeXt网络对所述输入数据进行特征图处理, 生成第五特征图, 并采用特征图拼 接的方式, 将各支路输出 的所述第四特征图与所述第 五特征图进行拼接, 生成所述融合特 征图。 3.如权利要求1所述的基于局部和全局时空特征的群体猴子动作识别方法, 其特征在 于, 所述时间整合模块具体包括: 左边支路、 右边支路以及拼接模块; 所述左边支路中设置有三个串联的2D卷积模块, 三个所述2D卷积模块的卷积核大小依 次为1*1、 3*3和1*1, 所述左边支路用于提取所述融合特征图中的空间信息, 生成空间特征 图, 其中, 所述空间特 征图的维度为(N, C5, H2, W2); 所述右边支路设置有串联的3D卷积模块、 BN+ReLU模块以及reshape模块, 所述3D卷积 模块的卷积核 大小为3*1*1, 所述3D卷积模块用于提取所述融合特征图中的时间信息, 生 成 中间特征图, 所述中间特 征图的维度为(N, C6, H, W), 所述BN+ReLU模块至少包括RN层和ReLU层, 其 中, 所述BN层用于对中间特征图进行正态 分布转换, 所述ReLU层中设置有sigmo id激活函数, 所述reshap e模块用于进行维度调整, 将所述BN+ReLU模块激活后的中间特征图的维度 调整为(N, C7, H2, W2), 生成时间特 征图; 所述拼接模块用于将所述空间特征图与 所述时间特征图进行拼接, 生成所述 时空特征权 利 要 求 书 1/2 页 2 CN 114842554 A 2图。 4.如权利要求1至3中任一项所述的基于局部和全局时空特征的群体猴子动作识别方 法, 其特征在于, 所述动作 识别网络模 型还包括3条支路, 支路1被记作动作权重支路, 支路2 和支路3结构相同, 被记作动作识别支路, 所述支路2用于识别发生在所述饲养笼上半部分 的猴子动作, 所述支路3用于识别发生在所述饲养笼 下半部分的猴子动作, 其中, 所述支路1包括依次串联的6个连续的2D  ResNet层、 AvgPooling层以及全连接层 FC或softmax层, 所述支路1用于输出所述关键帧中猴子动作发生在饲养笼上半部分、 下半 部分的概 率。 5.如权利要求4所述的基于局部和全局时空特征的群体猴子动作识别方法, 其特征在 于, 所述方法还 包括: 将所述时间整合模块生成的所述时空特征图中的第二个维度调整为1/8, 并将调整后 的时空特 征图输入至所述支路3 。 6.如权利要求1至3中任一项所述的基于局部和全局时空特征的群体猴子动作识别方 法, 其特征在于, 所述方法还 包括: 构建所述猴群动作数据库, 所述猴群动作数据库中存储有多个所述猴群动作数据, 所 述猴群动作数据由相 机拍摄饲养笼中的猴群获得, 所述猴群中的猴子佩戴有项圈, 所述项 圈为不同颜色的制式项圈。 7.如权利要求6所述的基于局部和全局时空特征的群体猴子动作识别方法, 其特征在 于, 所述构建猴群动作数据库, 具体包括: 在所述饲养笼的不同位置处安装多个所述相机, 多个所述相机用于获取不同视角下所 述饲养笼中所述猴群的视频 数据; 对采集到的所述视频 数据进行 预处理, 对所述视频 数据进行筛 选、 分帧操作; 对预处理后的视频数据进行数据采样, 并将采样到的若干连续帧按照通道维度进行拼 接, 生成关键帧; 根据定义的群体猴子的动作, 对所述关键帧进行数据标注, 利用标注好的关键帧组成 所述猴群动作数据库。权 利 要 求 书 2/2 页 3 CN 114842554 A 3

.PDF文档 专利 一种基于局部和全局时空特征的群体猴子动作识别方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于局部和全局时空特征的群体猴子动作识别方法 第 1 页 专利 一种基于局部和全局时空特征的群体猴子动作识别方法 第 2 页 专利 一种基于局部和全局时空特征的群体猴子动作识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:33:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。