全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210927577.1 (22)申请日 2022.08.03 (71)申请人 合肥工业大 学 地址 230601 安徽省合肥市蜀山区丹霞路 485号 (72)发明人 王杨 孙浩然 刘海鹏 钱彪  汪萌  (74)专利代理 机构 北京睿智保诚专利代理事务 所(普通合伙) 11732 专利代理师 杜娟 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/30(2020.01) G06F 16/583(2019.01) G06V 30/19(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于细粒度语义融合的文本图像生成 方法及系统 (57)摘要 本发明公开了一种基于细粒度语义融合的 文本图像生成方法及系统, 应用于计算机视觉和 自然语言处理技术领域, 其方法主要包括两个阶 段: 初始图像生成阶段和基于细粒度语义融合的 细化阶段; 首先从输入文本描述中提取两种粒度 的语义表示, 即句级和词级语义特征, 并根据句 级的语义特征生成模糊的低分辨率图像, 之后, 我们将细粒度的词级语义特征融合到视觉特征 图中, 并将融合后的特征与全局的句级上下文特 征相结合, 生成更高分辨率的清晰图像; 本发明 采用了一种新的细粒度融合模块, 从而更充分、 高效地融合文本和图像特征, 并通过全局语义细 化模块保证了全局语义的一致性, 能够准确识别 文本信息并生成符合文本 语义的逼真图像 。 权利要求书2页 说明书6页 附图3页 CN 115293109 A 2022.11.04 CN 115293109 A 1.一种基于细粒度语义融合的文本图像生成方法, 其特 征在于, 包括以下步骤: S1、 将文本 输入文本编码器中, 生成句级特 征和词级特 征; S2、 通过条件增强函数对句级特征进行增强得到增广句级语义向量, 将从正态分布中 采样的噪声向量与增广句级语义向量 拼接; S3、 将拼接后的向量输入至第一 生成器生成初始图像; S4、 将初始图像特 征和词级特 征输入至细粒度融合模块, 得到跨模态融合特 征; S5、 将初始图像特征和增广句级语义向量输入至全局语义细化模块, 得到句级上下文 特征; S6、 基于句级上 下文特征与跨模态融合特 征生成目标图像。 2.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法, 其特征在于, 所述S1具体为: 文本编码器采用双向长短期记忆网络对输入文本的语义表示进行句级和词 级的编码, 得到句级特 征和词级特 征。 3.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法, 其特征在于, 所述S4具体为: S41、 将词级特征转换到初始图像特征所在的语义空间, 计算初始图像特征和词级特征 之间的相似度得分, 对词级特 征和相似度得分进行内积, 得到词级上 下文特征; S42、 进行词级上 下文特征和初始图像特 征之间的融合, 得到跨模态融合特 征。 4.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法, 其特征在于, 所述S5具体为: 将增广句级语义向量转换到初始图像特征所在的语义空间, 计算初始图像特征和增广 句级语义向量的相似度得分, 对增广句级语义向量和相似度得分进行内积, 获得句级上下 文特征。 5.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法, 其特征在于, 所述S6具体为: S61、 将句级上 下文特征与跨模态融合特 征进行拼接, 得到中间图像特 征; S62、 将中间图像特 征输入至第二 生成器中, 得到目标图像。 6.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法, 其特征在于, 所述S6之后还 包括: S7、 将目标图像特 征作为新的图像特 征, 重复S4 ‑S6, 得到优化图像。 7.根据权利要求6所述的一种基于细粒度语义融合的文本图像生成方法, 其特征在于, 所述S7之后还 包括: S8、 将初始图像、 目标图像、 优化 图像输入至判别器中, 对第一生成器、 第二生成器、 判 别器进行 更新。 8.一种基于细粒度语义融合的文本 图像生成系统, 其特征在于, 包括: 文本编码器、 条 件增强模块、 拼接模块、 第一 生成器、 全局语义细化模块、 细粒度融合模块、 第二 生成器; 所述文本编码器用于从输入文本 中提取句级特征和词 级特征; 所述条件增强模块用于 增强句级 特征得到增广句级语义向量; 所述拼接模块将增广句级语义向量与从正态分布中 采样的噪声向量拼接; 所述第一生成器基于拼接后的向量生成初始图像; 所述全局语义细权 利 要 求 书 1/2 页 2 CN 115293109 A 2化模块基于初始图像特征和增广句级语义向量输出句级上下文特征; 所述细粒度融合模块 基于初始图像特征和词级 特征输出跨模态融合特征; 所述第二生成器基于句级上下文 特征 和跨模态融合特 征输出目标图像和优化图像。 9.根据权利要求8所述的一种基于细粒度语义融合的文本图像生成系统, 其特征在于, 还包括判别器, 所述判别器基于初始图像、 目标图像、 优化图像对文本图像生成系统进行更 新。权 利 要 求 书 2/2 页 3 CN 115293109 A 3

PDF文档 专利 一种基于细粒度语义融合的文本图像生成方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于细粒度语义融合的文本图像生成方法及系统 第 1 页 专利 一种基于细粒度语义融合的文本图像生成方法及系统 第 2 页 专利 一种基于细粒度语义融合的文本图像生成方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。