专利一种基于局部和全局时空特征的群体猴子动作识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210431685.X (22)申请日 2022.04.22 (71)申请人北京昭衍新药研究中心股份有限公司地址 100176 北京市大兴区经济技术开发区荣京东街甲5号 (72)发明人张素才　杨森　左从林　高大鹏　彭霞　马金玲　 (74)专利代理机构北京律谱知识产权代理有限公司 11457 专利代理师黄云铎 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称一种基于局部和全局时空特征的群体猴子动作识别方法 (57)摘要本申请公开了一种基于局部和全局时空特征的群体猴子动作识别方法，包括：构建动作识别网络模型，并利用猴群动作数据库对动作识别网络模型进行训练，其中，动作识别网络模型中设置有融合模块以及时间整合模块；对采集到的视频数据进行分帧处理，在分帧后的视频数据中随机选取多张连续帧，并按照通道维度进行拼接，生成关键帧；将关键帧作为输入数据，输入至训练好的动作识别网络模型，利用动作识别网络模型输出视频数据中猴子动作的动作预测结果。通过本申请中的技术方案，解决了饲养状态下的群体猴子动作视频或者图像识别的问题。权利要求书2页说明书8页附图4页 CN 114842554 A 2022.08.02 CN 114842554 A 1.一种基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述方法包括：构建动作识别网络模型，并利用猴群动作数据库对所述动作识别网络模型进行训练，其中，所述动作识别网络模型中设置有融合模块以及时间整合模块，所述融合模块用于对输入数据进行时空信息融合，生成融合特征图，所述时间整合模块用于分别提取所述融合特征图中的时间信息和空间信息，并将所述时间信息和所述空间信息在所述融合特征图的第二个维度上进行拼接，生成时空特征图，所述时空特征图用于动作预测；对采集到的视频数据进行分帧处理，在分帧后的视频数据中随机选取多张连续帧，并按照通道维度进行拼接，生成关键帧；将所述关键帧作为所述输入数据，输入至训练好的动作识别网络模型，利用所述动作识别网络模型输出所述视频数据中猴子动作的动作预测结果。 2.如权利要求1所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述融合模块用于对输入数据进行时空信息融合，生成融合特征图，具体包括：利用卷积核大小为1*1的conv2模块对所述输入数据进行特征图处理，生成第一特征图 x，其中，所述第一特征图x的维度为(N， C2， H， W)；利用卷积核大小为3*3*3的con3模块对所述第一特征图x进行0填充，生成第二特征图f (x)，其中，所述第二特征图f(x)的维度为(N， C3， H， W)；采用unsqueeze操作对所述第一特征图x的维度扩充为(N， C2， 1， H， W)，将所述第二特征图f(x)的维度扩充为(N， 1， C3， H， W)，并将维度扩充后的第一特征图x、第二特征图f(x)进行哈达玛积运算，生成第三特征图，其中，所述第三特征图的维度为(N， C2， C3， H， W)；利用Pool层和shift移位操作对所述第三特征图进行维度调整，将所述第三特征图的维度调整为(N， C2， H， W)，生成第四特征图；利用ResNeXt网络对所述输入数据进行特征图处理，生成第五特征图，并采用特征图拼接的方式，将各支路输出的所述第四特征图与所述第五特征图进行拼接，生成所述融合特征图。 3.如权利要求1所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述时间整合模块具体包括：左边支路、右边支路以及拼接模块；所述左边支路中设置有三个串联的2D卷积模块，三个所述2D卷积模块的卷积核大小依次为1*1、 3*3和1*1，所述左边支路用于提取所述融合特征图中的空间信息，生成空间特征图，其中，所述空间特征图的维度为(N， C5， H2， W2)；所述右边支路设置有串联的3D卷积模块、 BN+ReLU模块以及reshape模块，所述3D卷积模块的卷积核大小为3*1*1，所述3D卷积模块用于提取所述融合特征图中的时间信息，生成中间特征图，所述中间特征图的维度为(N， C6， H， W)，所述BN+ReLU模块至少包括RN层和ReLU层，其中，所述BN层用于对中间特征图进行正态分布转换，所述ReLU层中设置有sigmo id激活函数，所述reshap e模块用于进行维度调整，将所述BN+ReLU模块激活后的中间特征图的维度调整为(N， C7， H2， W2)，生成时间特征图；所述拼接模块用于将所述空间特征图与所述时间特征图进行拼接，生成所述时空特征权　利　要　求　书 1/2 页 2 CN 114842554 A 2图。 4.如权利要求1至3中任一项所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述动作识别网络模型还包括3条支路，支路1被记作动作权重支路，支路2 和支路3结构相同，被记作动作识别支路，所述支路2用于识别发生在所述饲养笼上半部分的猴子动作，所述支路3用于识别发生在所述饲养笼下半部分的猴子动作，其中，所述支路1包括依次串联的6个连续的2D ResNet层、 AvgPooling层以及全连接层 FC或softmax层，所述支路1用于输出所述关键帧中猴子动作发生在饲养笼上半部分、下半部分的概率。 5.如权利要求4所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述方法还包括：将所述时间整合模块生成的所述时空特征图中的第二个维度调整为1/8，并将调整后的时空特征图输入至所述支路3 。 6.如权利要求1至3中任一项所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述方法还包括：构建所述猴群动作数据库，所述猴群动作数据库中存储有多个所述猴群动作数据，所述猴群动作数据由相机拍摄饲养笼中的猴群获得，所述猴群中的猴子佩戴有项圈，所述项圈为不同颜色的制式项圈。 7.如权利要求6所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述构建猴群动作数据库，具体包括：在所述饲养笼的不同位置处安装多个所述相机，多个所述相机用于获取不同视角下所述饲养笼中所述猴群的视频数据；对采集到的所述视频数据进行预处理，对所述视频数据进行筛选、分帧操作；对预处理后的视频数据进行数据采样，并将采样到的若干连续帧按照通道维度进行拼接，生成关键帧；根据定义的群体猴子的动作，对所述关键帧进行数据标注，利用标注好的关键帧组成所述猴群动作数据库。权　利　要　求　书 2/2 页 3 CN 114842554 A 3

专利 一种基于局部和全局时空特征的群体猴子动作识别方法

专利一种基于局部和全局时空特征的群体猴子动作识别方法