(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211297694.0
(22)申请日 2022.10.22
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 尹宝才 赵宏智 关忠 胡永利
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
专利代理师 王兆波
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/40(2022.01)
G06V 10/62(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于多流3D卷积神经网络的多视角 手
语识别方法
(57)摘要
本发明公开了一种基于多流3D卷积神经网
络的多视角手语识别方法, 该方法基于多流3D卷
积神经网络以处理多视角手语识别, 使用3D卷积
神经网络提取手语数据的时空特征; 基于多流卷
积神经网络结构达到同时输入多视角手语数据
进行训练; 通过多视角融合模块来融合网络每个
流的识别结果, 从而充分利用不同视角手语数据
的互补信息, 使得多视角手 语识别更准确。
权利要求书3页 说明书7页 附图3页
CN 115527273 A
2022.12.27
CN 115527273 A
1.一种基于多流3D卷积神经网络的多视角手语识别方法, 其特征在于, 使用相机作为
采集设备, 采集得到手语数据的RGB视频; 使用5台相机, 分别从被采集者的正前方、 上斜前
方、 下斜前方、 左斜前方和右 斜前方5个不同角度进 行采集, 得到不同视角的手语数据; 得到
不同视角的手 语数据后, 对手 语数据进行处 理, 使其构成多视角原 始手语数据集;
首先, 将手语数据以RGB视频的形式从相机中读取出来, 得到手语数据; 然后, 对不同视
角的手语数据进行对齐, 并对手语数据采集过程中产生的噪声进 行去噪处理; 接着, 对手语
数据进行分词处理, 将完整的手语数据分割为词级短视频, 并对词语出现的频率进 行统计;
最后, 选取词频前11和前30的词语, 构成IWS11和IWS30数据集; IWS11和IWS30数据集所包含
的手语数据均采集于五个不同视角, IWS11数据集包含11个类别的手语数据, 而IWS30数据
集包含30个类别的手语数据; 同时, IWS11数据集中手语数据的时间长度较长, 而IWS 30数据
集中手语数据的时间长度较短; 针对IWS11数据集和IWS30数据集的手语识别, 在手语数据
输入多流3D卷积神经网络之前, 采取不同的手语数据分割策略; 实现该多视角手语识别方
法的模型主要由3D卷积神经网络模型、 多流卷积神经网络模型、 多视角融合模块三个部分
组成。
2.根据权利要求1所述的基于多流3D卷积神经网络的多视角手语识别方法, 其特征在
于, 将手语数据定义为一个T帧图片序列X=[x1,x2,...,xT], xt表示在一个图片序列中的第
t帧图片; 图片序列对应的N个类标签序列表示为L=[l1,l2,...,lN], ln表示图片序列对应
的第n个类标签; 不同视角的手语数据经过多流3D卷积神经网络的学习, 得到对应于相应类
标签的识别结果;
手语识别是根据手语数据中人们的手势、 面部表情和身体姿势来识别所表示的词语类
别; 手语识别定义为一个函数模型, 将 手语数据映射到不同的词语类别; 使用3D卷积神经网
络作为多流神经网络模型中每个流的特征提取器, 从输入的图片序列中提取视觉特征F=
[f1,f2,...,fT’], ft’表示从图片序列的第t帧图片中提取的视觉特征; 经过Softmax层得到
每个流的识别结果Q=[q1,q2,...,q5], qi表示第i个流的识别结果, 对每个流的识别经过进
行加权平均得到最终的手 语识别结果qRGB。
3.根据权利要求1所述的基于多流3D卷积神经网络的多视角手语识别方法, 其特征在
于, 3D卷积神经网络模 型由8个卷积层、 5个池化层、 2个全 连接层和1个Softmax层组成; 卷积
层作用是通过卷积操作提取输入数据的特征, 池化层的作用是通过池化操作对卷积层中提
取的特征进行挑选; 全连接层的作用是将池化层挑选后的特征转化为一维特征向量, 并对
输入数据进行有效的识别; Softmax层的主要作用是对全连接层输出的一维特征向量进行
归一化, 得到输入 数据属于每一类的概率值, 从而输出最 终的识别结果; 3D卷积神经网络通
过三维卷积和三 维池化, 同时学习时间域和空间域(x,y,t)三个维度的特征, 捕获手语数据
的运动信息, 具体表达式如下:
其中, fx,y,t表示特征图上时空位置(x,y,t)处的单位, v(x+i)(y+j)(t+k)表示时空位置(x+i,
y+j,t+k)处的输入单元, wi,j,k表示三维卷积核的权重参数, b表示特征图的偏差, a( ·)表示
激活函数。权 利 要 求 书 1/3 页
2
CN 115527273 A
24.根据权利要求3所述的基于多流3D卷积神经网络的多视角手语识别方法, 其特征在
于, 3D卷积神经网络以手语数据作为输入, 以不同手语类标签的识别 结果作为输出; 首先,
会对每个视频帧的大小进行裁剪, 所有视频帧的尺 寸大小被调整为 128×117; 然后, 通过滑
动窗口将手语数据分割成不重叠的手语片段, 对于不同时间长度的手语数据, 分割成的手
语片段也略有不同, 比如将IWS11数据集中的手语数据分割成16帧的手语片段, 将IWS30数
据集中的手语数据分割成8帧的手语片段, 输入到3D卷积神经网络中; 接着, 3D卷积神经网
络通过多层三 维卷积和池化操作, 提取手语片段的时空特征, 在训练过程中, 为得到更好地
输出结果, 对输入的手语片段进 行尺寸大小为112 ×112的随机剪裁; 最后, 经过全连接层和
Softmax层得到不同手 语类标签的分类结果, 输出最终的识别结果。
5.根据权利要求1所述的基于多流3D卷积神经网络的多视角手语识别方法, 其特征在
于, 多流卷积神经网络模型将单流卷积神经网络扩展成多流卷积神经网络, 使卷积神经网
络原本的单输入变成多输入, 以满足多视角手语数据同时输入、 训练, 并为之后不同视角手
语数据的融合做准备;
多视角手语数据同时输入到多个结构相同的3D卷积神经网络中, 并行处理; 不同流的
3D卷积神经网络通过卷积层、 池化层和全连接层分别提取不同视角手语数据的时空特征;
然后将提取的时空特征输入到Softmax层中, 对手语数据进行分类, 得到不同流的识别结
果; 最后将不同流的识别结果同时输入到多视角融合模块中, 进行相应的融合。
6.根据权利要求1所述的基于多流3D卷积神经网络的多视角手语识别方法, 其特征在
于, 多视角融合模块为了融合以不同视角手语数据为输入的3D卷积神经网络不同流的识别
结果, 通过对多个识别结果进 行加权平均计算, 完成多视角手语数据的融合, 从而 得到多流
3D卷积神经网络最终的识别结果;
考虑两种多视角融合模块的放置位置, 两个位置融合的侧重点不同; 一种是放置在多
流卷积神经网络的输入位置, 该位置处于多流卷积神经网络的底层, 主要用于融合多视角
手语数据的局部特征; 另一种 是放置在多流卷积神经网络的输出位置, 该位置处于多流卷
积神经网络的顶层, 用于融合多视角手语数据的全局特征; 不同视角手语数据的互补信息
存在于全局特征之中, 将多视角融合模块放置在多流卷积神经网络的输出位置, 取得更好
地融合效果;
多流3D卷积神经网络融合五个视角手语数据的识别结果, 保存每个视角Softmax层的
结果, Softmax层将全连接层的结果进行归一 化, 输出结果和损失函数的数 学表达式如下:
其中, zj表示全连接层中第j类的输出结果, pj表示Softmax层中第j类的概率, ln表示真
实样本标签;
根据每个视角在验证集上的准确率为每个视角分配权重, 并将 五个视角准确率的加权
平均计算结果作为多流3D卷积神经网络最终的识别结果, 具体 计算公式如下:
qRGB=α1q1+α2q2+α3q3+α4q4+α5q5
其中, q1,2,3,4,5表示五个视角的识别结果, α1,2,3,4,5表示根据验证集上的准确率进行调权 利 要 求 书 2/3 页
3
CN 115527273 A
3
专利 一种基于多流3D卷积神经网络的多视角手语识别方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:19上传分享