全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210148651.X (22)申请日 2022.02.17 (71)申请人 之江实验室 地址 311100 浙江省杭州市余杭区中泰街 道之江实验室南湖总部 申请人 中国科学院信息 工程研究所 (72)发明人 王蕊 梁栋 李太豪 裴冠雄  (74)专利代理 机构 杭州浙科专利事务所(普通 合伙) 33213 专利代理师 孙孟辉 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/40(2022.01) G06V 30/18(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于特征解耦合的文字-图像对生 成方 法和装置 (57)摘要 本发明公开一种基于特征解耦合的文字 ‑图 像对生成方法和装置, 该方法首先利用带标注的 文字‑图像对数据训练编码器, 将文字和图像两 种模态映射到同一个隐空间; 然后利用无标注的 图像数据训练图像编码器和解码器, 同时利用无 标注的文字数据训练文字编码器与解码器; 利用 训练好的文字 ‑图像特征编码器网络提取文字 ‑ 图像初始特征, 在隐空间加入随机采样的噪声后 进行解耦合, 利用解码器生成多样化的文字 ‑图 像对。 本发明在自然场景中, 例如改变纹理、 颜色 等高层语义属性, 都可以实现较好的文本 ‑图像 数据编辑。 权利要求书2页 说明书7页 附图3页 CN 114677569 A 2022.06.28 CN 114677569 A 1.一种基于特 征解耦合的文字 ‑图像对生成方法, 其特 征在于, 包括以下步骤: 步骤一、 基于GAN生成对抗网络构造文字 ‑图像特征编码器, 利用带标注的文字 ‑图像对 数据, 通过最大化三元损失函数约束文字与图像特征的相关性, 对文字 ‑图像特征编 码器进 行训练, 将文字和图像两种模态映射到同一个隐空间进行融合, 得到编码后的融合特 征; 步骤二、 基于GAN生成对抗网络构造文字 ‑图像特征解码器, 对融合特征进行解耦合, 所 述图像特征解码 器网络由对抗损失函数和感知损失函数约束进行训练, 所述文字特征解码 器由交叉熵损失函数进行训练, 利用无标注的图像数据训练图像特征编码器和解码器, 同 时利用无 标注的文字数据训练文字特 征编码器与解码器; 步骤三、 利用训练好的文字 ‑图像特征编码器提取文字 ‑图像特征作为初始特征, 加入 随机采样的噪声后, 再利用训练好的文字 ‑图像特征解码 器采样出融合的文字 ‑图像特征并 进行解耦合, 得到具有语义关联的文字和图像特 征, 生成多样化的文字 ‑图像数据。 2.如权利要求1所述的一种基于特征解耦合的文字 ‑图像对生成方法, 其特征在于, 所 述文字‑图像特征编码器由7个带有下采样层的ResNet块和一个LSTM网络组成, 将文字 ‑图 像对数据中的图像和文字分别输入到图像编码器和文字编 码器中, 分别输出图像和文字两 个模态的特 征, 将两个模态的特 征相乘得到融合特 征。 3.如权利要求1所述的一种基于特征解耦合的文字 ‑图像对生成方法, 其特征在于, 所 述三元损失函数表达式为: 其中v和 表示是正例和负例图像特征按通道取平均的结果, t和 表示正例和负例的文字特 征,·表示内积。 4.如权利要求1所述的一种基于特征解耦合的文字 ‑图像对生成方法, 其特征在于, 所 述将文字和图像两种模态映射到同一个隐空间进 行融合, 得到编 码后的融合特征的计算 公 式为: f=t⊙V 其中⊙表示按元 素相乘, V∈R1024×7×7表示是正例和负例图像特 征。 5.如权利要求1所述的一种基于特征解耦合的文字 ‑图像对生成方法, 其特征在于, 所 述对抗损失函数的表达式为: LGAN=‑E[D(I)]+E[ D(G(v))] I是图像数据, G是生成器, D是判别器, E[ ·]是求均值操作。 6.如权利要求1所述的一种基于特征解耦合的文字 ‑图像对生成方法, 其特征在于, 所 述感知损失函数的表达式为: 其中Fk是目标图像生成VGG网络的第k层输出, nk表示第k层网络输出的通道个数, N为文 字序列的长度。 7.如权利要求1所述的一种基于特征解耦合的文字 ‑图像对生成方法, 其特征在于, 所 述交叉熵损失函数的公式如下:权 利 要 求 书 1/2 页 2 CN 114677569 A 2其中S是文字T的词向量表达, St为文字Tt的词向量表达, pt=LSTM(xt‑1),t∈{1, …,N} 表示LSTM网络的输出, xt是LSTM网络每一时刻的输入, 其初始值与计算方法如下: x‑1=CNN(I) xt=WeSt,t∈{0,…,N‑1}, 其中CNN为图像特征提取网络, 本实验中使用VGG网络进行图像特征的提取; We为可训练 参数。 8.如权利要求1所述的一种基于特征解耦合的文字 ‑图像对生成方法, 其特征在于, 所 述图像特征解码器由7个带有上采样层的ResNet块组成, 文字特征解码器采用长短期记忆 LSTM网络, 文字 ‑图像特征解码器采用条件对抗损失函数作为文字 ‑图像语义关联损失函 数, 来约束 文字与图像的语义关联性, 所述条件 对抗损失函数, 表达式为: Lpair=‑E[D(I|t)]+E[ D(G(v|t) )] I是图像数据, G是生成器, D是判别器, E[ ·]是求均值操作, v∈R1024×1×1表示是正例图 像特征按通道取平均的结果, t∈R1024×1×1表示正例的文字特 征。 9.如权利要求1所述的一种基于特征解耦合的文字 ‑图像对生成方法, 其特征在于, 所 述步骤三, 利用训练好的文字 ‑图像特征编码器提取文字 ‑图像特征作为初始特征, 然后在 隐空间中初始特 征的一个邻域内进行采样, 得到新的编码向量: 其中z~N(0,I)是随机向量, f是编码后的融合特 征即初始特 征; 新的编码向量输入到训练好的解码器网络中, 最终得到修改后的文字和图像。 10.一种基于特 征解耦合的文字 ‑图像对生成装置, 其特 征在于, 包括: 文字‑图像特征编码模块, 包括文字特征编码模块, 为基于LSTM的文字特征提取网络, 根据文字描述标注, 生 成文字语义特征; 图像特征编码模块, 为基于ResNet的图像特征提取 网络, 对于给定的图像提取相应的视觉图像特征; 两个模块共同训练, 训练过程利用三元损 失函数约束文字与图像特征 的关联性; 两个模块同时编码文本与图像, 并对二者进行特征 融合; 文字‑图像特征解码模块, 包括文字特征解码模块, 为基于LSTM的文字生成网络, 负责 将特征映射到文字, 利用交叉熵损失函数进 行训练; 图像特征解码模块, 负责将融合特征映 射到图像空间, 利用对抗损失函数和感知损失函数约束图像生成的真实性, 同时利用条件 对抗损失函数约束 文字‑图像的关联性; 通过随机采样的方式采样出融合的文本 ‑图像特征后进行解耦合得到具有语义关联的 文本和图像特征, 再利用文本与图像解码模块同时生成文本 ‑图像对, 得到相应的输出图 像。权 利 要 求 书 2/2 页 3 CN 114677569 A 3

.PDF文档 专利 一种基于特征解耦合的文字-图像对生成方法和装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于特征解耦合的文字-图像对生成方法和装置 第 1 页 专利 一种基于特征解耦合的文字-图像对生成方法和装置 第 2 页 专利 一种基于特征解耦合的文字-图像对生成方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。