全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211223508.9 (22)申请日 2022.10.08 (71)申请人 四川轻化工大 学 地址 643000 四川省自贡 市汇东学 苑街180 号 (72)发明人 李兆飞 毛宇凡 赵俊  (74)专利代理 机构 昆明合盛知识产权代理事务 所(普通合伙) 53210 专利代理师 贺博 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/26(2022.01) G06V 10/40(2022.01) G06V 10/764(2022.01)G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 视觉仿生深度神经网络构建方法及其应用 (57)摘要 本发明公开了一种视觉仿生深度神经网络 构建方法, 具体包括: S1、 构建卷积神经网络分支 和转换器分支; S2、 构建网络架构: 由视觉仿生 (VBN)模块堆叠构成网络架构, 所述VBN模块 (VBNBlock)由一个卷积神经网络分支和一个转 换器分支构成并行结构; S3、 构建架构变体; S4、 通过特征转换器将上述两分支特征融合; 本发明 解决了神经网络同时进行与人眼视觉机制类似 的局部特征捕获和全局感知的问题, 且具有更高 的分类及检测精度特点。 权利要求书1页 说明书7页 附图3页 CN 115511057 A 2022.12.23 CN 115511057 A 1.一种视 觉仿生深度神经网络构建方法, 其特 征在于, 具体包括以下步骤: S1、 构建卷积神经网络分支和转换器分支; S2、 构建网络架构: 由视觉仿生模块堆叠构成网络架构, 所述VBN模块由一个卷积神经 网络分支和一个转换器分支构成并行 结构; S3、 构建架构变 体; S4、 通过特征转换器将上述两分支特 征融合。 2.根据权利要求1所述一种视觉仿生深度神经网络构建方法, 其特征在于, 所述卷积神 经网络分支的构建中采用倒残差结构, 且将 深度可分离卷积的卷积核增大到 5×5。 3.根据权利要求1所述一种视觉仿生深度神经网络构建方法, 其特征在于, 所述卷积神 经网络分支的构建中, 在深度可分离卷积进行特征提取后, 引入GELU激活函数, 其形式定义 为: 其中 指的是高斯 正态分布的累计分布。 4.根据权利要求1所述一种视觉仿生深度神经网络构建方法, 其特征在于, 所述特征融 合采用卷积特征转换器和变换特征转换器, 在此两个模块中使用1 ×1卷积对齐通道维度, 并使用下采样和上采样的方式与空间维度进行匹配。 5.根据权利要求1所述一种视觉仿生深度神经网络构建方法, 其特征在于, 所述特征融 合中卷积特征转换器先将卷积神经网络分支形式的通道维度进行扩张或压缩来与转换器 中嵌入维度E匹配, 之后再通过池化操作后将H与W维度展平来对齐空间维度。 6.根据权利要求1所述一种视觉仿生深度神经网络构建方法, 其特征在于, 所述特征融 合中TFC先将各维度重构为卷积神经网络 分支的形式, 然后通过1 ×1卷积将通道维度C与卷 积神经网络 分支的通道维度对齐, 最后通过线性插值的方式进行上采样与卷积神经网络分 支的空间维度对齐。 7.权利要求1构建的视觉仿生深度神经网络在图像分类、 目标检测及图像分割中的应 用。权 利 要 求 书 1/1 页 2 CN 115511057 A 2视觉仿生深度神经 网络构建方法及其应用 技术领域 [0001]本发明涉及视觉仿生深度神经网络模式识别技术领域, 具体涉及视觉仿生深度神 经网络构建方法及其应用。 背景技术 [0002]受猫的视觉神经元的启发, LeCun发明了最初的卷积神经网络(Convolutional   Neural Networks, CNN), 从此之后的20余年来, 由于其通过卷积对图像进行特征提取的特 殊性质, 在图像分类、 目标检测、 实例分割等任务上都具有较高性能, 卷积神经网络几乎统 治了整个深度学习的视觉领域。 在LeCun之后, Larochelle和Hinton使用基于三阶连接玻尔 兹曼机(Restricted  Boltzmann  Machine, RBM)的模型来模仿了人眼扫视的功能。 Denil等 人使用深度受限玻尔兹曼机(deep ‑Restricte d Boltzmann  Machines)将每一 时间点上的 观察结果组成中央凹, 并且分辨率朝着凝视的边缘衰减的形式来对人类视觉进行仿真。 此 外, VGGNet、 ResNet、 GoogleNet和MobileNet等卷积神经网络都是利用卷积的视觉仿生特性 作为特征提取器。 S ENet使用学习的方式来自动获取到每个特征通道的重要程度, 以此来构 建视觉注意力的机制。 CBAM则是将注意力(Attention)同时运用在通道(channel)和空间 (spatial)两个维度上用以提升网络模型的特征表达能力。 eRPN受人类视觉系统同心圆拮 抗式感受野(homocentric  opponent  phenomenon, HOP)的启发, 缓解了预定义锚点和样本 的低质量问题。 [0003]卷积操作通过分层的方式收集局部特征作为图像的高层语义表示, 尽管其能很好 的捕获到局部细节, 但是缺乏对全局的信息感知, 类似于视网膜的中央凹系统。 然而这种丧 失全局感知能力的机制, 可能会导致CNN不能够有效的提取目标的关键特征信息。 对于卷积 神经网络而言, 其最直接的解决方案就是通过堆叠多层卷积以扩大其感受野, 但也会破坏 神经网络对局部细节捕获的能力。 [0004]如图1所示为ResNet ‑34/50/101与本发明提出网络VBN的有效感受野图; 图中, 除 0.0处的绿色外, 其他色域分布越广说明有效感受野越 大。 此外, 颜色越靠近1.0处代表此处 网络的注意力越高。 通过对影响感受野(Effective  Receptive Fields, ERFs)的研究, 发现 其理论感受野与实际的感受野并不直接相关, 通过简单的堆积深层的卷积并不能有效的提 升有效感受野。 [0005]近年来, 由Google研究团队引入自注意力(Self ‑attention)机制的变换器 (Transformer)架构在自然语言处理及视觉领域大放异彩。 其中视觉变换器(Vision   Transformer, ViT)在图像分类任务中的成功, 验证了其在视觉领域的可行性和巨大发展潜 力。 ViT通过将图像拆分为具有位置嵌入(Embedding)的部分图像块补丁(Patches)来构建 一系列标记(Tokens), 并应用多层变换模块(Transformer  Blocks)堆叠来提取各标记 (Tokens)之间的长距离依赖关系 作为视觉特征表 示。 由于其全局自注意力机制和多层感知 器(Multilayer  Perceptron, MLP)结构, 使得ViT反映了复杂的空间变换和长距离特征的依 赖性, 以此来构成更好的全局表示和语义信息 。 因此变换器架构理论上 具有全局的感受野。说 明 书 1/7 页 3 CN 115511057 A 3

PDF文档 专利 视觉仿生深度神经网络构建方法及其应用

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视觉仿生深度神经网络构建方法及其应用 第 1 页 专利 视觉仿生深度神经网络构建方法及其应用 第 2 页 专利 视觉仿生深度神经网络构建方法及其应用 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。