(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210080054.8
(22)申请日 2022.01.24
(71)申请人 西北大学
地址 710069 陕西省西安市太白北路2 29号
(72)发明人 范建平 宋乔 张晓丹 彭先霖
王珺 赵万青 李斌 彭进业
(74)专利代理 机构 西安恒泰知识产权代理事务
所 61216
专利代理师 王孝明
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种解决模态缺失问题的多模态图像美学
质量评价方法
(57)摘要
本发明提供了一种解决模态缺失问题的多
模态图像美 学质量评价方法, 步骤1, 获取美 学数
据集, 对数据集进行数据清洗和预处理, 获得每
张图像的图像ID、 文本评论信息和标签; 步骤2,
使用DPC数据集预训练缺失模态重建网络, 利用
图像的视觉特征重建缺失的文本模态信息; 步骤
3, 建立多模态美学预测网络, 所述的多模态美学
预测网络包括图像编码器、 embedding模型、 多模
态编码器和美 学评分单元; 步骤4, 将美学数据集
中每张图像的图像ID、 文本评论信息和真实标签
作为训练集, 对多模态美学预测 网络进行训练,
训练好的多模态美学预测网络作为美学评分分
布预测模型, 实现多模态图像美学质量评价。 使
图像信息和文本信息不同模态的信息在多个不
同的层次上相互作用。
权利要求书7页 说明书15页 附图4页
CN 114549850 A
2022.05.27
CN 114549850 A
1.一种解决模态缺失问题的多模态图像美学质量评价方法, 其特征在于, 该方法包括
以下步骤:
步骤1, 获取美学数据集, 对数据集进行数据清洗和预处理, 获得每张图像的图像ID、 文
本评论信息和标签;
步骤2, 使用DPC数据集预训练缺失模态重建网络, 利用图像的视觉特征重建缺失的文
本模态信息;
步骤3, 建立多模态美学预测网络, 所述的多模态美学预测网络包括图像编码器、
embedding模型、 多模态编码器和美学评分单 元;
所述的图像编码器用于提取美学 数据集中的图像的特 征;
所述的embed ding模型用于计算多模态编码器的输入;
所述的多模态编码器用于多模态特征融合, 将视觉特征和文本特征进行融合, 得到多
模态的联合表示向量;
所述的美学评分单 元, 用于基于多模态的联合表示向量计算美学 预测概率分布;
步骤4, 将美学数据集中每张图像的图像ID、 文本评论信息和真实标签作为训练集, 对
多模态美学预测网络进行训练, 训练好的多模态美学预测网络作为美学评分分布预测模
型, 实现多模态图像美学质量评价。
2.如权利要求1所述的解决模态缺失问题的多模态图像美学质量评价方法, 其特征在
于, 步骤2包括以下步骤:
步骤2.1, 统计D PC数据集中出现的不同的单词的数量, 做成词汇 表;
步骤2.2, 对于缺少文本模态数据的美学数据集中的样本, 基于可用的图像模态重建缺
少的文本模态; 给定可观测的图像模态, 采用卷积神经网络提取视觉特征集x={x1,x2...,
xL|xi∈RD};
式中:
i表示图像特 征的顺序, i =1,2,..,L, L表示总共L个位置;
xi表示第i个位置的图像特 征;
L表示总共L个位置;
RD表示视觉特征的维度为D维向量;
步骤2.3, 计算第i个位置的注意力权重αt,i, 注意力权重就是衡量在t时刻生成第t个单
词时, 第i个位置的图像特 征所占的权 重;
eti=fatt(xi,ht‑1) 式1;
式中:
fatt表示计算 位置i和时间t的耦合信息的函数;
ht‑1表示上一时刻的隐藏状态;
eti表示在t时刻i 位置上的耦合信息;
etk表示计算t时刻和共L个位置上第k个位置的耦合信息, 是一个中间变量;
k表示第k个位置;权 利 要 求 书 1/7 页
2
CN 114549850 A
2步骤2.4, 得到注意力权 重之后, 进 而计算上 下文向量, 计算方式如下 所示:
式中:
表示上下文向量;
ψ表示一个函数, 在给定一组标注向量及其相应权值的情况 下, 返回单个向量;
步骤2.5, 使用LSTM模型作为解码器, 将步骤2.4得到的上下文向量和先前生成的单词
还有上一时刻的隐藏状态ht‑1输入LSTM网络中, LSTM网络通过在每个时刻生成一个单词来
生成文本注释, 以重建缺失的文本模态信息y;
y={y1,y2,...,yM|yj∈RA};
式中:
j表示生成文本模态信息中单词的顺序, j=1,2,. ..,M, M表示 生成单词的数量;
yj表示生成的第j个单词;
M表示生成单词的数量;
A表示词汇 表的大小;
RA表示生成的单词的维度;
所述的LSTM网络中:
式中:
it表示LSTM网络的输入状态;
ft表示LSTM网络的遗 忘状态;
ot表示LSTM网络的输出状态;
ct表示LSTM网络的记 忆状态;
ht表示LSTM网络的隐藏状态;
gt表示LSTM网络的输入调制器;
σ 表示sigmo id激活函数;
tanh表示tanh 激活函数;
T表示维度转换操作;
D表示视觉特征的维度;权 利 要 求 书 2/7 页
3
CN 114549850 A
3
专利 一种解决模态缺失问题的多模态图像美学质量评价方法
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:12:21上传分享