专利基于特征融合的行为识别方法、装置、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210055992.2 (22)申请日 2022.01.18 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人郑喜民　苏杭　舒畅　陈又新　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 代理人尹长斌 (51)Int.Cl. G06V 40/20(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06V 10/44(2022.01)G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于特征融合的行为识别方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能领域，提供了基于特征融合的行为识别方法、装置、设备及存储介质，其中方法包括对输入视频进行抽帧；融合颜色信息和光流信息得到融合图像；将融合图像输入至特征提取网络得到目标特征；对目标特征进行分类得到行为识别结果；通过光流信息对颜色信息进行指导有利于对融合图像的特征提取；将前一第一特征提取模块的输出与前一第二特征提取模块的输出的融合结果作为后一第二特征提取模块的输入，将时间维度信息和空间维度信息融合，捕捉视频中的语义信息和运动信息，并在特征提取模型中引入注意力机制，使模型能更关注感兴趣区域的信息，有利于提高行为识别的准确率和提高模型的训练效率。权利要求书3页说明书9页附图3页 CN 114399839 A 2022.04.26 CN 114399839 A 1.基于特征融合的行为识别方法，其特征在于，包括：对输入视频进行抽帧，得到帧图像；对每个所述帧图像，获取所述帧图像的颜色信息和光流信息，对所述帧图像的每个像素的所述颜色信息和所述光流信息进行融合得到融合图像；将所述融合图像输入至特征提取网络进行特征提取得到目标特征，其中所述特征提取网络包括第一分支、第二分支和融合模块，所述第一分支用于提取表示所述输入视频的时间维度信息的第一特征，所述第二分支用于提取表示所述输入视频的空间维度信息的第二特征，所述融合模块用于融合所述第一特征和所述第二特征得到所述目标特征，所述第一分支包括N个基于注意力机制的第一特征提取模块，所述第二分支包括N个基于注意力机制的第二特征提取模块，第n个所述第一特征提取模块的输入为第n ‑1个所述第一特征提取模块的输出，第n个所述第二特征提取模块的输入为第n ‑1个所述第一特征提取模块的输出与第n‑1个所述第二特征提取模块的输出两者的融合结果， N为大于或等于2的整数， n为2至N 之间的整数；对所述目标特征进行分类，得到行为识别结果。 2.根据权利要求1所述的行为识别方法，其特征在于，所述对所述帧图像的每个像素的所述颜色信息和所述光流信息进行融合得到融合图像，包括：对所述帧图像的每个像素，根据所述颜色信息得到每个颜色通道的第一元素值；对所述帧图像的每个像素，在每个所述颜色通道中，将所述像素的光流信息与所述像素的第一元素值作相乘融合得到所述像素的第二元素值，对所述第二元素值作标准化处理得到目标元素值；将所述像素的所有所述颜色通道的所述目标元素值组合得到所述融合图像。 3.根据权利要求2所述的行为识别方法，其特征在于，所述对所述第二元素值作标准化处理得到目标元素值，包括：计算所述第二元素值的均值；计算所述第二元素值的方差；将所述第二元素值与所述均值之差除以所述方差，得到所述目标元素值。 4.根据权利要求1所述的行为识别方法，其特征在于，所述将所述融合图像输入至特征提取网络进行特征提取得到目标特征，包括：将所述融合图像进行降采样率处理得到第二融合图像，将所述第二融合图像输入至所述第一分支得到所述第一特征；将所述融合图像输入至所述第二分支得到所述第二特征；通过所述融合模块将所述第一特征和所述第二特征拼接，得到所述目标特征。 5.根据权利要求4所述的行为识别方法，其特征在于，所述将所述第二融合图像输入至所述第一分支得到所述第一特征，包括：使所述第二融合图像依次经过N个所述第一特征提取模块进行特征提取得到所述第一特征；其中，经过所述第一特征提取模块进行特征提取，包括：使第一输入特征经过至少一个第一卷积层进行卷积运算得到第一卷积结果，所述第一输入特征为输入至所述第一特征提取模块的特征；权　利　要　求　书 1/3 页 2 CN 114399839 A 2使所述第一卷积结果经过第一注意力机制模块进行特征提取得到第一注意力特征；将所述第一注意力特征和所述第一输入特征融合得到第一输出特征，所述第一输出特征为所述第一特征提取模块输出的特征。 6.根据权利要求5所述的行为识别方法，其特征在于，将所述融合图像输入至所述第二分支得到所述第二特征，包括：使所述融合图像依次经过N个所述第二特征提取模块进行特征提取得到所述第二特征；其中，经过所述第二特征提取模块进行特征提取，包括：使第二输入特征经过至少一个第二卷积层进行卷积运算得到第二卷积结果，所述第二输入特征为输入至所述第二特征提取模块的特征；使所述第二卷积结果经过第二注意力机制模块进行特征提取得到第二注意力特征；将所述第二注意力特征和所述第二输入特征融合得到第二输出特征，所述第二输出特征为所述第二特征提取模块输出的特征。 7.根据权利要求6所述的行为识别方法，其特征在于，所述使所述第一卷积结果经过第一注意力机制模块进行特征提取得到第一注意力特征，包括：使所述第一卷积结果经过第一全池化层、至少一个第一全连接层和第一激活函数层得到第一子注意力特征，将所述第一子注意力特征和所述第一卷积结果融合得到所述第一注意力特征；所述使所述第二卷积结果经过第二注意力机制模块进行特征提取得到第二注意力特征，包括：使所述第二卷积结果经过第二全池化层、至少一个第二全连接层和第二激活函数层得到第二子注意力特征，将所述第二子注意力特征和所述第二卷积结果融合得到所述第二注意力特征。 8.行为识别装置，其特征在于，包括：抽帧模块，用于对输入视频进行抽帧，得到帧图像；融合图像获取模块，用于对每个所述帧图像，获取所述帧图像的颜色信息和光流信息，对所述帧图像的每个像素的所述颜色信息和所述光流信息进行融合得到融合图像；特征提取模块，用于将所述融合图像输入至特征提取网络进行特征提取得到目标特征，其中所述特征提取网络包括第一分支、第二分支和融合模块，所述第一分支用于提取表示所述输入视频的时间维度信息的第一特征，所述第二分支用于提取表示所述输入视频的空间维度信息的第二特征，所述融合模块用于融合所述第一特征和所述第二特征得到所述目标特征，所述第一分支包括N个第一特征提取模块，所述第二分支包括N个第二特征提取模块，第n个所述第一特征提取模块的输入为第n ‑1个所述第一特征提取模块的输出，第n个所述第二特征提取模块的输入为第n ‑1个所述第一特征提取模块的输出与第n ‑1个所述第二特征提取模块的输出两者的融合结果， N 为大于或等于2的整数， n 为2至N之间的整数；分类模块，用于对所述目标特征进行分类，得到行为识别结果。 9.行为识别设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于特征融合的行为识别方法。权　利　要　求　书 2/3 页 3 CN 114399839 A 3

专利 基于特征融合的行为识别方法、装置、设备及存储介质

专利基于特征融合的行为识别方法、装置、设备及存储介质