全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211201815.7 (22)申请日 2022.09.29 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 颜成钢 王寅峰 胡冀 王鸿奎  陈楚翘 孙垚棋 高宇涵 朱尊杰  薛轶天 殷海兵 张继勇 李宗鹏  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/18(2022.01) G06V 30/418(2022.01)G06N 20/00(2019.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/258(2020.01) (54)发明名称 一种基于深度学习的即插即用的风格化图 片字幕生成方法 (57)摘要 本发明公开了一种基于机器学习的即插即 用的风格化图片字幕生成方法, 首先准备数据 集, 构建可控 图像文本生成网络, 包含两个子网 络: image ‑caption网络和风格控制器; 通过 image‑caption网络对输入的图像数据进行处 理, 得到对应的输出文本; 通过风格控制器对输 出文本进行风格控制; 最后训练可控图像文本生 成网络。 本发明提出一种可控文本生成的方式, 不需要对生成模 型进行参数调整等额外操作, 通 过一个具有即插即用功能的风格控制器, 即可在 生成模型基础上生成带有所需要属性的字幕, 拓 展了原生成模型的功能与泛用性; 本发明采用 Transformer替代传统的LSTM作为生成模型, 增 加了生成字幕的准确性。 权利要求书2页 说明书4页 CN 115497083 A 2022.12.20 CN 115497083 A 1.一种基于机器学习的即插即用的风格化图片字幕生成方法, 其特征在于, 包括如下 步骤: 步骤1: 准备 数据集; 步骤2: 构建可控图像文本生成网络; 所述的可控图像文本生成网络包 含两个子网络: ima ge‑caption网络和风格控制器; 步骤3: 通过ima ge‑caption网络对输入的图像数据进行处 理, 得到对应的输出文本; 步骤4: 通过风格控制器对输出文本进行风格控制; 步骤5: 训练可控图像文本生成网络 。 2.根据权利要求1所述的一种基于机器学习的即插即用的风格化图片字幕生成方法, 其特征在于, 步骤1具体方法如下: 1.1图像‑文本数据集 直接采用现有的数据集其包括如下几个部分: 第一部分是图片, 作为网络模型训练过 程中的输入图像数据; 第二部分是与这些图片所对应的文本描述; 1.2图像‑文本‑情感数据集 直接采用现有的数据集, 其包括如下几个部分: 第 一部分是图片, 第 二部分是与这些图 片所对应的带情感的文本描述, 第三部分是文本描述的情感倾向, 第四部分是标定的具有 感情的具体词汇。 3.根据权利要求2所述的一种基于机器学习的即插即用的风格化图片字幕生成方法, 其特征在于, 步骤2具体方法如下: 可控图像文本生成网络包 含两个子网络: ima ge‑caption网络和风格控制器; (1)image‑caption网络, 它包 含: Backbone: 用以提取图像特 征, 采用ResNet101进行提取; RPN层: 该层用以在特 征图上生成目标建议框以提高对物体识别的准确率; 编解码器: 用于处理提取的图像特征并生成对应的文字描述; 采用基于Transformer架 构的编解码 器; 一个Transformer具有一个编码器与一个解码 器, 编解码器均具有多个多头 注意力层, 用于提取输入特 征; (2)风格控制器: 它同样基于Transformer结构, 包括 一个编码端与一个解码端。 4.根据权利要求3所述的一种基于机器学习的即插即用的风格化图片字幕生成方法, 其特征在于, 步骤3具体方法如下: 步骤3.1: 首 先使用ResNet101网络对输入的图像数据提取 特征并生成特 征图; 步骤3.2: 通过RPN层处 理特征图, 得到目标建议框; 步骤3.3: 编码器处理图像特征与目标建议框, 解码器输出与输入图像对应的文本; 其 具体步骤为: 步骤3.3.1: 将特 征图输入编码器, 经 过多头注意力机制后得到一个新的图嵌入向量; 步骤3.3.2: 将图嵌入向量输入解码器, 输出与目标图片对应的文本; image‑caption网络使用图像 ‑文本数据集进行训练; 具体的训练方法为, 将3.3.2中得 到的输出文本与训练集中标定的文本进行比对训练, 损失函数为交叉熵损失函数。 5.根据权利要求4所述的一种基于机器学习的即插即用的风格化图片字幕生成方法, 其特征在于, 步骤4具体方法如下:权 利 要 求 书 1/2 页 2 CN 115497083 A 2步骤4.1: 将image ‑caption网络中得到的文本输入风格控制器 的编码端, 经过多头注 意力机制得到词嵌入向量; 步骤4.2: 将词嵌入向量输入解码端, 将图像 ‑文本‑情感数据集中的情感词 汇输入风格 控制器的解码端, 输出 带情感倾向的文本; 风格控制器的训练使用图像 ‑文本‑情感数据集, 具体的训练方法为, 将4.2中得到的输 出文本与训练集中标定的文本进行比对训练, 损失函数为交叉熵损失函数。 6.根据权利要求5所述的一种基于机器学习的即插即用的风格化图片字幕生成方法, 其特征在于, 步骤5具体方法如下: 在image‑caption网络与风格控制器训练完成后, 用图像 ‑文本‑情感数据集再进行一 次整体训练; 具体的训练方法为, 将图像 ‑文本‑情感数据集中的图像作为输入, 将 输出与标 定的文本进行比对训练, 损失函数为交叉熵损失。权 利 要 求 书 2/2 页 3 CN 115497083 A 3

.PDF文档 专利 一种基于深度学习的即插即用的风格化图片字幕生成方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的即插即用的风格化图片字幕生成方法 第 1 页 专利 一种基于深度学习的即插即用的风格化图片字幕生成方法 第 2 页 专利 一种基于深度学习的即插即用的风格化图片字幕生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。