专利一种基于细粒度语义融合的文本图像生成方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210927577.1 (22)申请日 2022.08.03 (71)申请人合肥工业大学地址 230601 安徽省合肥市蜀山区丹霞路 485号 (72)发明人王杨　孙浩然　刘海鹏　钱彪　汪萌　 (74)专利代理机构北京睿智保诚专利代理事务所(普通合伙) 11732 专利代理师杜娟 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/30(2020.01) G06F 16/583(2019.01) G06V 30/19(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于细粒度语义融合的文本图像生成方法及系统 (57)摘要本发明公开了一种基于细粒度语义融合的文本图像生成方法及系统，应用于计算机视觉和自然语言处理技术领域，其方法主要包括两个阶段：初始图像生成阶段和基于细粒度语义融合的细化阶段；首先从输入文本描述中提取两种粒度的语义表示，即句级和词级语义特征，并根据句级的语义特征生成模糊的低分辨率图像，之后，我们将细粒度的词级语义特征融合到视觉特征图中，并将融合后的特征与全局的句级上下文特征相结合，生成更高分辨率的清晰图像；本发明采用了一种新的细粒度融合模块，从而更充分、高效地融合文本和图像特征，并通过全局语义细化模块保证了全局语义的一致性，能够准确识别文本信息并生成符合文本语义的逼真图像。权利要求书2页说明书6页附图3页 CN 115293109 A 2022.11.04 CN 115293109 A 1.一种基于细粒度语义融合的文本图像生成方法，其特征在于，包括以下步骤： S1、将文本输入文本编码器中，生成句级特征和词级特征； S2、通过条件增强函数对句级特征进行增强得到增广句级语义向量，将从正态分布中采样的噪声向量与增广句级语义向量拼接； S3、将拼接后的向量输入至第一生成器生成初始图像； S4、将初始图像特征和词级特征输入至细粒度融合模块，得到跨模态融合特征； S5、将初始图像特征和增广句级语义向量输入至全局语义细化模块，得到句级上下文特征； S6、基于句级上下文特征与跨模态融合特征生成目标图像。 2.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S1具体为：文本编码器采用双向长短期记忆网络对输入文本的语义表示进行句级和词级的编码，得到句级特征和词级特征。 3.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S4具体为： S41、将词级特征转换到初始图像特征所在的语义空间，计算初始图像特征和词级特征之间的相似度得分，对词级特征和相似度得分进行内积，得到词级上下文特征； S42、进行词级上下文特征和初始图像特征之间的融合，得到跨模态融合特征。 4.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S5具体为：将增广句级语义向量转换到初始图像特征所在的语义空间，计算初始图像特征和增广句级语义向量的相似度得分，对增广句级语义向量和相似度得分进行内积，获得句级上下文特征。 5.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S6具体为： S61、将句级上下文特征与跨模态融合特征进行拼接，得到中间图像特征； S62、将中间图像特征输入至第二生成器中，得到目标图像。 6.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S6之后还包括： S7、将目标图像特征作为新的图像特征，重复S4 ‑S6，得到优化图像。 7.根据权利要求6所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S7之后还包括： S8、将初始图像、目标图像、优化图像输入至判别器中，对第一生成器、第二生成器、判别器进行更新。 8.一种基于细粒度语义融合的文本图像生成系统，其特征在于，包括：文本编码器、条件增强模块、拼接模块、第一生成器、全局语义细化模块、细粒度融合模块、第二生成器；所述文本编码器用于从输入文本中提取句级特征和词级特征；所述条件增强模块用于增强句级特征得到增广句级语义向量；所述拼接模块将增广句级语义向量与从正态分布中采样的噪声向量拼接；所述第一生成器基于拼接后的向量生成初始图像；所述全局语义细权　利　要　求　书 1/2 页 2 CN 115293109 A 2化模块基于初始图像特征和增广句级语义向量输出句级上下文特征；所述细粒度融合模块基于初始图像特征和词级特征输出跨模态融合特征；所述第二生成器基于句级上下文特征和跨模态融合特征输出目标图像和优化图像。 9.根据权利要求8所述的一种基于细粒度语义融合的文本图像生成系统，其特征在于，还包括判别器，所述判别器基于初始图像、目标图像、优化图像对文本图像生成系统进行更新。权　利　要　求　书 2/2 页 3 CN 115293109 A 3

专利 一种基于细粒度语义融合的文本图像生成方法及系统

专利一种基于细粒度语义融合的文本图像生成方法及系统