全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210947726.0 (22)申请日 2022.08.05 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 赖博润 马丽红 韦岗 张中豪  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 黄卫萍 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/58(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于门控交叉单词-视觉注 意力驱动的文本 生成图像方法 (57)摘要 本发明公开了一种基于门控交叉单词 ‑视觉 注意力驱动的文本生成图像方法, 包括以下步 骤: 从文本描述中提取句子特征向量和单词特征 矩阵, 并将句子特征向量通过条件增强处理得到 条件特征向量, 然后和随机噪声向量输入视觉特 征转换器和生成器, 得到低分辨率图像; 将单词 特征矩阵和视觉特征矩阵输入门控交叉单词 ‑视 觉注意力单元, 得到细化的单词特征矩阵和细化 的视觉特征矩阵, 然后将细化的视觉特征矩阵输 入视觉特征转换器和生成器, 得到高分辨率图 像; 重复以上步骤, 得到更高分辨率的图像; 引入 改进的目标函数, 增强生 成图像的真实性和与文 本描述的语义一致性, 并将分辨率最高的图像作 为最终生成图像。 通过本发明的方法, 可 以生成 质量更高的图像 。 权利要求书6页 说明书18页 附图3页 CN 115438211 A 2022.12.06 CN 115438211 A 1.一种基于门控交叉单词 ‑视觉注意力驱动的文本生成图像方法, 其特征在于, 所述文 本生成图像方法包括以下步骤: S1、 从文本描述中提取句子特征向量和第一阶段的单词特征矩阵, 并将句子特征向量 通过条件增强处理得到条件特征向量, 然后将条件特征向量和随机噪声向量一起输入第一 阶段的视觉特征转换器, 得到第一 阶段的视觉特征矩阵, 再将第一阶段的视觉特征矩阵输 入第一阶段的生成器, 得到第一分辨 率图像; S2、 将第一阶段的单词特征矩阵和视觉特征矩阵输入第一阶段的门控交叉单词 ‑视觉 注意力单元, 得到第一阶段细化的单词特征矩阵和细化的视觉特征矩阵, 并将第一 阶段细 化的单词特征矩阵作为第二阶段的单词特征矩阵, 然后 将第一阶段细化的视觉特征矩阵输 入第二阶段的视觉特征转换器, 得到第二阶段的视觉特征矩阵, 再将第二阶段的视觉特征 矩阵输入第二阶段的生成器, 得到第二分辨 率图像; S3、 将第二阶段的单词特征矩阵和视觉特征矩阵输入第二阶段的门控交叉单词 ‑视觉 注意力单元, 得到第二阶段细化的单词特征矩阵和细化的视觉特征矩阵, 并将第二 阶段细 化的单词特征矩阵作为第三阶段的单词特征矩阵, 然后 将第二阶段细化的视觉特征矩阵输 入第三阶段的视觉特征转换器, 得到第三阶段的视觉特征矩阵, 再将第三阶段的视觉特征 矩阵输入第三阶段的生成器, 得到第三分辨 率图像; S4、 引入改进的目标函数, 通过最小化目标函数增强每个阶段生成图像的真实性以及 生成图像与文本描述的语义一致性, 并将第三阶段生成的第三分辨率图像作为最 终生成的 高质量图像。 2.根据权利要求1所述的基于门控交叉单词 ‑视觉注意力驱动的文本生成图像方法, 其 特征在于, 所述第一、 第二、 第三阶段的单词特征矩阵均分别由多个单词特征向量构成, 使 用Nw表示第一、 第 二、 第三阶段单词特征矩阵中单词特征向量的个数, Dw表示第一、 第二、 第 三阶段单词特征向量的维度; 所述第一、 第二、 第三阶段的视觉特征矩阵均分别由多个视觉 特征向量构成, 使用 分别表示第一、 第二、 第三阶段视觉特征矩阵中视觉特征 向量的个数, Dv表示第一、 第二、 第三阶段视 觉特征向量的维度。 3.根据权利要求2所述的基于门控交叉单词 ‑视觉注意力驱动的文本生成图像方法, 其 特征在于, 所述第一、 第二阶段的门控交叉单词 ‑视觉注意力单元均分别由单词到视觉注 意 力块、 选择门、 视觉到单词注意力块串联而成; 所述第一阶段的视觉特征转换器由1个全连 接层和4个上采样块串联而成, 所述第二、 第三阶段的视觉特征转换器均分别由2个残差块 和1个上采样块串联而成; 所述第一、 第二、 第三阶段的生成器均分别由1个3 ×3卷积层构 成。 4.根据权利要求3所述的基于门控交叉单词 ‑视觉注意力驱动的文本生成图像方法, 其 特征在于, 所述第一 阶段门控交叉单词 ‑视觉注意力单元中的单词到视觉注意力块以第一 阶段的视觉特征矩阵和单词特征矩阵作为输入, 输出为第一阶段 的局部视觉特征矩阵; 所 述第二阶段门控交叉单词 ‑视觉注意力单元中的单词到视觉注意力块以第二阶段的视觉特 征矩阵和单词特 征矩阵作为输入, 输出为第二阶段的局部 视觉特征矩阵; 所述单词到视觉注意力块的计算过程为: 首先将输入的视觉特征矩阵通过1 ×1卷积层 进行特征映射, 得到处于单词 特征语义空间的视觉特征矩阵; 然后将输入的单词 特征矩阵权 利 要 求 书 1/6 页 2 CN 115438211 A 2和处于单词 特征语义空间的视觉特征矩阵通过矩阵乘法相乘, 得到相似度矩阵; 再沿最后 一个维度对相似度矩阵进行归一化, 得到注意力权重系 数矩阵; 接着将处于单词 特征语义 空间的视觉特征矩阵和注意力权重系数矩阵通过矩阵乘法相乘, 得到视觉上下文特征矩 阵; 最后对视觉上下文特征矩阵和输入的单词特征矩阵进行特征拼接, 并通过两个线性变 换层和sigmo id激活函数, 得到局部 视觉特征矩阵; 表达式如下: Vi′=Mv(Vi),i=1,2;    (1) αi=softmax(WiTVi′),i=1,2;    (2) 其中, Vi表示输入的第i阶段的视觉特征矩阵, 维度为 Wi表示输入的第i阶段 的单词特征矩阵, 维度为Dw×Nw; Vi′表示第i阶段处于单词特征语义空间的视觉特征矩阵, 维度为 WiTVi′表示第i阶段的相似度矩阵, 维度为 αi表示第i阶段的注 意力权重系数矩阵, 维度为 Vi′αiT表示第i阶段的视觉上下文特征矩阵, 维度为 Dw×Nw; Vil表示输出的第 i阶段的局部视觉特征矩阵, 维度为Dw×Nw; Mv()表示1 ×1卷积层, 右下标v表示输入特征处于视觉特征语义空间; 和 表示第一、 第二线性变换 层, 右下标w表示输入特征处于单词特征语义空间, 的维度为Dw×Dw, 的维度 为Dw; σ()表示sigmo id激活函数, 表示元素相乘, 右上 标T表示矩阵倒置 。 5.根据权利要求4所述的基于门控交叉单词 ‑视觉注意力驱动的文本生成图像方法, 其 特征在于, 所述第一 阶段门控交叉单词 ‑视觉注意力单元中的选择门以第一 阶段的局部视 觉特征矩阵和单词 特征矩阵作为输入, 输出为第一阶段细化的单词 特征矩阵; 所述第二阶 段门控交叉单词 ‑视觉注意力单元中的选择门以第二阶段的局部视觉特征矩阵和单词特征 矩阵作为输入, 输出为第二阶段细化的单词特 征矩阵; 选择门的计算过程为: 将输入的局部视觉特征矩阵和单词特征矩阵通过两个线性变换 层和sigmo id激活函数, 得到细化的单词特 征矩阵; 表达式如下: 其中, Vil表示输入的第i阶段的局部视觉特征矩阵, 维度为Dw×Nw; Wi表示输入的第i阶 段的单词特征矩阵, 维度为Dw×Nw; Wir表示输出的第i阶段细化的单词特征矩阵, 维度为Dw× Nw; 和 表示第一、 第二线性变换层, 右下标w表示输入特征处于单词特征语义空间, 的维度为1 ×Dw; σ()表示sigmo id激活函数。 6.根据权利要求5所述的基于门控交叉单词 ‑视觉注意力驱动的文本生成图像方法, 其 特征在于, 所述第一 阶段门控交叉单词 ‑视觉注意力单元中的视觉到单词注意力块以第一 阶段细化的单词特征矩阵和视觉特征矩阵作为输入, 输出为第一阶段细化的视觉特征矩 阵; 所述第二 阶段门控交叉单词 ‑视觉注意力单元中的视觉到单词注意力块以第二 阶段细 化的单词特 征矩阵和视 觉特征矩阵作为输入, 输出为第二阶段细化的视 觉特征矩阵; 视觉到单词注意力块的计算过程为: 首先将输入的细化的单词特征矩阵通过1 ×1卷积权 利 要 求 书 2/6 页 3 CN 115438211 A 3

PDF文档 专利 基于门控交叉单词-视觉注意力驱动的文本生成图像方法

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于门控交叉单词-视觉注意力驱动的文本生成图像方法 第 1 页 专利 基于门控交叉单词-视觉注意力驱动的文本生成图像方法 第 2 页 专利 基于门控交叉单词-视觉注意力驱动的文本生成图像方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。