专利一种基于深度学习的即插即用的风格化图片字幕生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211201815.7 (22)申请日 2022.09.29 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人颜成钢　王寅峰　胡冀　王鸿奎　陈楚翘　孙垚棋　高宇涵　朱尊杰　薛轶天　殷海兵　张继勇　李宗鹏　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师朱月芬 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/18(2022.01) G06V 30/418(2022.01)G06N 20/00(2019.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/258(2020.01) (54)发明名称一种基于深度学习的即插即用的风格化图片字幕生成方法 (57)摘要本发明公开了一种基于机器学习的即插即用的风格化图片字幕生成方法，首先准备数据集，构建可控图像文本生成网络，包含两个子网络： image ‑caption网络和风格控制器；通过 image‑caption网络对输入的图像数据进行处理，得到对应的输出文本；通过风格控制器对输出文本进行风格控制；最后训练可控图像文本生成网络。本发明提出一种可控文本生成的方式，不需要对生成模型进行参数调整等额外操作，通过一个具有即插即用功能的风格控制器，即可在生成模型基础上生成带有所需要属性的字幕，拓展了原生成模型的功能与泛用性；本发明采用 Transformer替代传统的LSTM作为生成模型，增加了生成字幕的准确性。权利要求书2页说明书4页 CN 115497083 A 2022.12.20 CN 115497083 A 1.一种基于机器学习的即插即用的风格化图片字幕生成方法，其特征在于，包括如下步骤：步骤1：准备数据集；步骤2：构建可控图像文本生成网络；所述的可控图像文本生成网络包含两个子网络： ima ge‑caption网络和风格控制器；步骤3：通过ima ge‑caption网络对输入的图像数据进行处理，得到对应的输出文本；步骤4：通过风格控制器对输出文本进行风格控制；步骤5：训练可控图像文本生成网络。 2.根据权利要求1所述的一种基于机器学习的即插即用的风格化图片字幕生成方法，其特征在于，步骤1具体方法如下： 1.1图像‑文本数据集直接采用现有的数据集其包括如下几个部分：第一部分是图片，作为网络模型训练过程中的输入图像数据；第二部分是与这些图片所对应的文本描述； 1.2图像‑文本‑情感数据集直接采用现有的数据集，其包括如下几个部分：第一部分是图片，第二部分是与这些图片所对应的带情感的文本描述，第三部分是文本描述的情感倾向，第四部分是标定的具有感情的具体词汇。 3.根据权利要求2所述的一种基于机器学习的即插即用的风格化图片字幕生成方法，其特征在于，步骤2具体方法如下：可控图像文本生成网络包含两个子网络： ima ge‑caption网络和风格控制器； (1)image‑caption网络，它包含： Backbone：用以提取图像特征，采用ResNet101进行提取； RPN层：该层用以在特征图上生成目标建议框以提高对物体识别的准确率；编解码器：用于处理提取的图像特征并生成对应的文字描述；采用基于Transformer架构的编解码器；一个Transformer具有一个编码器与一个解码器，编解码器均具有多个多头注意力层，用于提取输入特征； (2)风格控制器：它同样基于Transformer结构，包括一个编码端与一个解码端。 4.根据权利要求3所述的一种基于机器学习的即插即用的风格化图片字幕生成方法，其特征在于，步骤3具体方法如下：步骤3.1：首先使用ResNet101网络对输入的图像数据提取特征并生成特征图；步骤3.2：通过RPN层处理特征图，得到目标建议框；步骤3.3：编码器处理图像特征与目标建议框，解码器输出与输入图像对应的文本；其具体步骤为：步骤3.3.1：将特征图输入编码器，经过多头注意力机制后得到一个新的图嵌入向量；步骤3.3.2：将图嵌入向量输入解码器，输出与目标图片对应的文本； image‑caption网络使用图像 ‑文本数据集进行训练；具体的训练方法为，将3.3.2中得到的输出文本与训练集中标定的文本进行比对训练，损失函数为交叉熵损失函数。 5.根据权利要求4所述的一种基于机器学习的即插即用的风格化图片字幕生成方法，其特征在于，步骤4具体方法如下：权　利　要　求　书 1/2 页 2 CN 115497083 A 2步骤4.1：将image ‑caption网络中得到的文本输入风格控制器的编码端，经过多头注意力机制得到词嵌入向量；步骤4.2：将词嵌入向量输入解码端，将图像 ‑文本‑情感数据集中的情感词汇输入风格控制器的解码端，输出带情感倾向的文本；风格控制器的训练使用图像 ‑文本‑情感数据集，具体的训练方法为，将4.2中得到的输出文本与训练集中标定的文本进行比对训练，损失函数为交叉熵损失函数。 6.根据权利要求5所述的一种基于机器学习的即插即用的风格化图片字幕生成方法，其特征在于，步骤5具体方法如下：在image‑caption网络与风格控制器训练完成后，用图像 ‑文本‑情感数据集再进行一次整体训练；具体的训练方法为，将图像 ‑文本‑情感数据集中的图像作为输入，将输出与标定的文本进行比对训练，损失函数为交叉熵损失。权　利　要　求　书 2/2 页 3 CN 115497083 A 3

专利 一种基于深度学习的即插即用的风格化图片字幕生成方法

专利一种基于深度学习的即插即用的风格化图片字幕生成方法