专利一种基于机器视觉的轻量化精准手指语智能算法识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210502602.1 (22)申请日 2022.05.09 (71)申请人南通大学地址 226019 江苏省南通市崇川区啬园路9 号 (72)发明人张堃　刘志诚　徐沛霞　林鹏程　刘纪元　涂鑫涛　任婉莹　韩宇　 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/10(2022.01) G06V 10/22(2022.01) G06V 10/40(2022.01) G06V 10/46(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于机器视觉的轻量化精准手指语智能算法识别方法 (57)摘要本发明属于手语识别技术领域，具体涉及一种基于机器视觉的轻量化精准手指语智能算法识别方法，具体步骤包括：第一步单目相机采集图像信息，以Finger ‑YOLOv4算法对采集的图像信息处理，框选出手部的区域；第二步在框选的手部区域内基于稀疏性目标提取算法锁定操作人员手部区域排除非操作人员手部干扰；第三步在操作人员手部区域内基于DFCRF ‑Net进行深度学习，识别出手部区域的21个关键点的坐标；第四步根据21个关键点坐标的位置关系采用强制坐标法推理出当前手势表达的手指语。本发明提出的算法架构轻量化，仅需单目相机即可部署，检测速度快、精度高；经过不同环境、操作人员的测试，该智能算法识别方法可以有效的识别出全部手指语手势。权利要求书4页说明书13页附图5页 CN 114898464 A 2022.08.12 CN 114898464 A 1.一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：包括如下步骤： S1、操作人员面向单目相机，手部区域出现在相机视野范围内，启动识别算法； S2、单目相机采集图像信息，采用Finger ‑YOLOv4算法对采集的图像信息处理，框选出手部的区域； S3、在框选的手部区域内基于稀疏性目标提取算法锁定操作人员手部区域排除非操作人员手部干扰； S4、在操作人员手部区域内基于双特征条件随机场网络进行深度学习，识别出手部区域的21个关键点的坐标； S5、根据21个关键点坐标的位置关系采用强制坐标法推理出当前手势表达的手指语。 2.根据权利要求1所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：在S2中， Finger ‑YOLOv4算法是在YOLOv4算法的基础上进行改进，改进方式包括：结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger ‑bneck网络模块，将 MobileNetv3中的bneck进行改进为Finger ‑bneck；采用改进型MobileNetv3替换YOLOv4的主干网络 CSPDarkNet；将YOLOv4的Head结构简化为2个分支。 3.根据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：结合通道注意力机制是用于通道之间的重要性调节，在一个正常卷积之后首先进行全局化操作，使用池化层获取通道级的全局特征值，定义全局化操作为 Fsq，运算公式为：式中表示全局化操作的结果， W、 H表示输入特征图的宽和高， Uc表示经过一个正常卷积后的输出，将空间维度进行特征压缩，即每个二维的特征图变成一个实数，相当于具有全局感受野的池化操作，特征通道数不变；然后利用全连接层对全局特征值进行调节排序，学习获取各个通道的权重；最后利用学习的权重值对原特征进行加权处理。 4.根据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：孪生模块是用来降低神经网络大小和计算资源占用的网络模块，定义常规的卷积公式Y＝X*f+b，式中*是卷积操作， X是输入特征图，是输出的特征图， h ′是输出的高、 w ′是输出的宽、 n是输出维度即卷积核个数，是卷积核， c是通道数， k是卷积核的高和宽， n是输出维度， b是偏置操作；定义整个卷积操作的FLOPs为F，计算公式： F＝n×h′ ×w′ ×c×k×k 式中F为卷积操作的FLOPs， n是卷积操作的输出维度， c是通道数， h ′是输出的高， w ′是输出的宽， k是卷积操作中卷积核的高和宽；孪生模块相对卷积操作进行了改进，第一步使用更少的卷积核生成输出特征图定义原卷积核个数为n，现在使用更少的卷积核个数为m；第二步对第一步生成的每一张特征图进行深度卷积操作，每张特征图生成s张新的特征图共计m ×s张，保证m ×s＝n即保证孪生操作和普通卷积输出的特征形状相同；第三步将特征图拼接到一起；孪生模块的第一步卷积公式为Y′＝X*f′，省去偏置操作，式中是输出的特征图， h′是输出的高、 w ′是输权　利　要　求　书 1/4 页 2 CN 114898464 A 2出的宽、 m是输出维度， *是卷积操作， X是输入特征图，是卷积核， c是通道数， k是卷积核的高和宽， m是输出维度，其余超参数都与卷积操作保持一致；定义整个孪生操作的 FLOPs为F ′，计算公式： F′＝(m×h′ ×w′ ×c×k×k)+[(s‑1)×m×h′ ×w′ ×d×d] 式中F′为孪生操作的FLOPs， m是孪生操作的输出维度， c是通道数， h ′是输出的高， w ′是输出的宽， k是卷积操作中卷积核的高和宽， d是孪生操作中卷积核的高和宽；定义卷积操作和孪生操作的加速比为TS，计算公式为：式中TS为加速度比， F为卷积操作的FLOPs， F ′为孪生操作的FLOPs， n是卷积操作的输出维度， m是孪生操作的输出维度， c是通道数， h ′是输出的高， w ′是输出的宽， k是卷积操作中卷积核的高和宽， d是孪生操作中卷积核的高和宽， s是新的特征图的张数，卷积操作的 FLOPs是孪生模块的s倍。 5.据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：深度可分离卷积搭建Finger ‑bneck网络模块其核心思想是将一个完整的卷积分两部分进行，一部分是逐点卷积、另外一部分是逐深度卷积；逐点卷积是采用1 ×1的卷积组合不同深度卷积的输出，得到一组新的输出，定义其过程中使用大小为Cp×1×1的卷积核，数量为Co个；逐深度卷积是将单个滤波器应用到每个通道上，定义输入特征图的每个通道通过一个d ×d的卷积核，深度可分离卷积所需参数量为Fd的计算公式为： Fd＝Co×1×1+Cp×d×d 式中Fd为深度可分离卷积所需参数量，为Co为卷积核数量， Cp为通道数， d为卷积核大小。 6.根据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：改进型MobileNetv3采用结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger ‑bneck网络模块替换原MobileNetv3中的bneck，在经过一个卷积后采用残差原理，一部分输入由孪生模块和深度可分离卷积组成的G ‑bneck后再经过一个通道注意力机制模块，最后经过一个卷积操作后与另外一部分通过shortcut连接最终输出；采用改进型 MobileNetv3替换YOLOv4的主干网络CSPDarkNet，将改进型MobileNetv3第7个Finger ‑权　利　要　求　书 2/4 页 3 CN 114898464 A 3

专利 一种基于机器视觉的轻量化精准手指语智能算法识别方法

专利一种基于机器视觉的轻量化精准手指语智能算法识别方法