专利 一种基于多流3D卷积神经网络的多视角手语识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211297694.0 (22)申请日 2022.10.22 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人尹宝才　赵宏智　关忠　胡永利　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 专利代理师王兆波 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/62(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多流3D卷积神经网络的多视角手语识别方法 (57)摘要本发明公开了一种基于多流3D卷积神经网络的多视角手语识别方法，该方法基于多流3D卷积神经网络以处理多视角手语识别，使用3D卷积神经网络提取手语数据的时空特征；基于多流卷积神经网络结构达到同时输入多视角手语数据进行训练；通过多视角融合模块来融合网络每个流的识别结果，从而充分利用不同视角手语数据的互补信息，使得多视角手语识别更准确。权利要求书3页说明书7页附图3页 CN 115527273 A 2022.12.27 CN 115527273 A 1.一种基于多流3D卷积神经网络的多视角手语识别方法，其特征在于，使用相机作为采集设备，采集得到手语数据的RGB视频；使用5台相机，分别从被采集者的正前方、上斜前方、下斜前方、左斜前方和右斜前方5个不同角度进行采集，得到不同视角的手语数据；得到不同视角的手语数据后，对手语数据进行处理，使其构成多视角原始手语数据集；首先，将手语数据以RGB视频的形式从相机中读取出来，得到手语数据；然后，对不同视角的手语数据进行对齐，并对手语数据采集过程中产生的噪声进行去噪处理；接着，对手语数据进行分词处理，将完整的手语数据分割为词级短视频，并对词语出现的频率进行统计；最后，选取词频前11和前30的词语，构成IWS11和IWS30数据集； IWS11和IWS30数据集所包含的手语数据均采集于五个不同视角， IWS11数据集包含11个类别的手语数据，而IWS30数据集包含30个类别的手语数据；同时， IWS11数据集中手语数据的时间长度较长，而IWS 30数据集中手语数据的时间长度较短；针对IWS11数据集和IWS30数据集的手语识别，在手语数据输入多流3D卷积神经网络之前，采取不同的手语数据分割策略；实现该多视角手语识别方法的模型主要由3D卷积神经网络模型、多流卷积神经网络模型、多视角融合模块三个部分组成。 2.根据权利要求1所述的基于多流3D卷积神经网络的多视角手语识别方法，其特征在于，将手语数据定义为一个T帧图片序列X＝[x1,x2,...,xT]， xt表示在一个图片序列中的第 t帧图片；图片序列对应的N个类标签序列表示为L＝[l1,l2,...,lN]， ln表示图片序列对应的第n个类标签；不同视角的手语数据经过多流3D卷积神经网络的学习，得到对应于相应类标签的识别结果；手语识别是根据手语数据中人们的手势、面部表情和身体姿势来识别所表示的词语类别；手语识别定义为一个函数模型，将手语数据映射到不同的词语类别；使用3D卷积神经网络作为多流神经网络模型中每个流的特征提取器，从输入的图片序列中提取视觉特征F＝ [f1,f2,...,fT’]， ft’表示从图片序列的第t帧图片中提取的视觉特征；经过Softmax层得到每个流的识别结果Q＝[q1,q2,...,q5]， qi表示第i个流的识别结果，对每个流的识别经过进行加权平均得到最终的手语识别结果qRGB。 3.根据权利要求1所述的基于多流3D卷积神经网络的多视角手语识别方法，其特征在于， 3D卷积神经网络模型由8个卷积层、 5个池化层、 2个全连接层和1个Softmax层组成；卷积层作用是通过卷积操作提取输入数据的特征，池化层的作用是通过池化操作对卷积层中提取的特征进行挑选；全连接层的作用是将池化层挑选后的特征转化为一维特征向量，并对输入数据进行有效的识别； Softmax层的主要作用是对全连接层输出的一维特征向量进行归一化，得到输入数据属于每一类的概率值，从而输出最终的识别结果； 3D卷积神经网络通过三维卷积和三维池化，同时学习时间域和空间域(x,y,t)三个维度的特征，捕获手语数据的运动信息，具体表达式如下：其中， fx,y,t表示特征图上时空位置(x,y,t)处的单位， v(x+i)(y+j)(t+k)表示时空位置(x+i, y+j,t+k)处的输入单元， wi,j,k表示三维卷积核的权重参数， b表示特征图的偏差， a( ·)表示激活函数。权　利　要　求　书 1/3 页 2 CN 115527273 A 24.根据权利要求3所述的基于多流3D卷积神经网络的多视角手语识别方法，其特征在于， 3D卷积神经网络以手语数据作为输入，以不同手语类标签的识别结果作为输出；首先，会对每个视频帧的大小进行裁剪，所有视频帧的尺寸大小被调整为 128×117；然后，通过滑动窗口将手语数据分割成不重叠的手语片段，对于不同时间长度的手语数据，分割成的手语片段也略有不同，比如将IWS11数据集中的手语数据分割成16帧的手语片段，将IWS30数据集中的手语数据分割成8帧的手语片段，输入到3D卷积神经网络中；接着， 3D卷积神经网络通过多层三维卷积和池化操作，提取手语片段的时空特征，在训练过程中，为得到更好地输出结果，对输入的手语片段进行尺寸大小为112 ×112的随机剪裁；最后，经过全连接层和 Softmax层得到不同手语类标签的分类结果，输出最终的识别结果。 5.根据权利要求1所述的基于多流3D卷积神经网络的多视角手语识别方法，其特征在于，多流卷积神经网络模型将单流卷积神经网络扩展成多流卷积神经网络，使卷积神经网络原本的单输入变成多输入，以满足多视角手语数据同时输入、训练，并为之后不同视角手语数据的融合做准备；多视角手语数据同时输入到多个结构相同的3D卷积神经网络中，并行处理；不同流的 3D卷积神经网络通过卷积层、池化层和全连接层分别提取不同视角手语数据的时空特征；然后将提取的时空特征输入到Softmax层中，对手语数据进行分类，得到不同流的识别结果；最后将不同流的识别结果同时输入到多视角融合模块中，进行相应的融合。 6.根据权利要求1所述的基于多流3D卷积神经网络的多视角手语识别方法，其特征在于，多视角融合模块为了融合以不同视角手语数据为输入的3D卷积神经网络不同流的识别结果，通过对多个识别结果进行加权平均计算，完成多视角手语数据的融合，从而得到多流 3D卷积神经网络最终的识别结果；考虑两种多视角融合模块的放置位置，两个位置融合的侧重点不同；一种是放置在多流卷积神经网络的输入位置，该位置处于多流卷积神经网络的底层，主要用于融合多视角手语数据的局部特征；另一种是放置在多流卷积神经网络的输出位置，该位置处于多流卷积神经网络的顶层，用于融合多视角手语数据的全局特征；不同视角手语数据的互补信息存在于全局特征之中，将多视角融合模块放置在多流卷积神经网络的输出位置，取得更好地融合效果；多流3D卷积神经网络融合五个视角手语数据的识别结果，保存每个视角Softmax层的结果， Softmax层将全连接层的结果进行归一化，输出结果和损失函数的数学表达式如下：其中， zj表示全连接层中第j类的输出结果， pj表示Softmax层中第j类的概率， ln表示真实样本标签；根据每个视角在验证集上的准确率为每个视角分配权重，并将五个视角准确率的加权平均计算结果作为多流3D卷积神经网络最终的识别结果，具体计算公式如下： qRGB＝α1q1+α2q2+α3q3+α4q4+α5q5 其中， q1,2,3,4,5表示五个视角的识别结果， α1,2,3,4,5表示根据验证集上的准确率进行调权　利　要　求　书 2/3 页 3 CN 115527273 A 3

专利 一种基于多流3D卷积神经网络的多视角手语识别方法

专利一种基于多流3D卷积神经网络的多视角手语识别方法