(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210748134.6
(22)申请日 2022.06.29
(71)申请人 宁波大学
地址 315211 浙江省宁波市江北区风 华路
818号
(72)发明人 钱江波 彭良康 钱承武 宁轩
(74)专利代理 机构 宁波奥圣专利代理有限公司
33226
专利代理师 程天鹏
(51)Int.Cl.
G06F 16/58(2019.01)
G06F 16/55(2019.01)
G06F 16/51(2019.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
(54)发明名称
一种多标签图像的哈希检索方法
(57)摘要
本发明公开了一种多标签图像的哈希检索
方法, 特点是先提取图像中每个目标的视觉特征
向量与相对位置向量, 通过第一、 第二全连接层
获取融合后的特征向量, 之后经过第三全连接
层, 最后在第三全连接层与分类层之间添加哈希
层, 训练时将训练数据集随机打乱后输入待训练
的哈希检索模 型, 根据输出结果与对应的原始标
签信息修正模 型参数, 得到训练后的哈希检索模
型, 再用训练后的哈希检索模型分别对原始的 图
像样本及 待检索图像进行哈希编码, 在原始图像
哈希码中查找出与待检索图像哈希码的海明距
离最近的数据, 完成对待检索图像的哈希检索过
程; 优点是能更加精细地利用原始标签信息, 并
且哈希检索模 型能够充分训练难训练样本对, 从
而提高检索准确性。
权利要求书2页 说明书5页
CN 115495607 A
2022.12.20
CN 115495607 A
1.一种多标签图像的哈希检索方法, 其特 征在于包括以下步骤:
步骤1): 在原始多标签 图像数据库中存储的图像样本中选取N个 图像样本并组成训练
集X, X={x1,…,xi,…,xN}, 其中, xi表示X中第i个图像样本, 1≤i≤N, 将X中的每个图像样
本对应的类别标签按序排列形成类别标签 集Y, Y={y1,…,yi,…,yN}, 其中, yi表示xi对应的
类别标签向量;
步骤2): 将X中的每个图像样本通过目标检测网络得到M个目标的视觉特征向量与每个
目标的位置, 将M个目标的视觉特征向量归入一个目标集Vi, Vi={v1,…,vi',…,vM}, 其中,
dv=2048, vi'表示第i'个目标的视觉特征向量, 1≤i'≤M, 定义M个目标所在的区
域为目标区域, 在目标区域内获取基准点坐标, 该基准点坐标的横坐标为所有目标 的左上
角顶点的最小横坐标值, 该基准点的纵坐标为所有目标的左上角顶点的最小纵坐标值, 将
每个目标的左上角顶点坐标减去基准点坐标得到左上相对坐标, 将 每个目标的右下角顶点
坐标减去基准点坐标得到右下相对坐标, 再以每个目标的左上相对坐标与 右下相对坐标 组
成的向量作为该目标的相对位置向量, 将所有目标的相对位置向量按序排列形成相对位置
向量集Pi, Pi={p1,…,pi',…,pM}, 其中, pi'表示第i'个目标的相对位置向量;
步骤3): 建立待训练的哈希检索模型, 包括输入数据层、 第一全连接层、 第二全连接层、
第三全连接层、 哈希层和分类层, 其中第一全连接层、 第二全连接层和第三全连接层均采用
RELU激活函数, 将Vi中的视觉特征向量经过第一全连接层降维得到特征维度为768的降维
后的视觉特征向量, 将Pi中的相对位置向量经过第二全连接层升维得到特征维度为768的
升维后的相对位置向量, 将 每个降维后的视觉特征向量与对应的升维后的相对位置向量进
行逐位相加并求相加的两个元素的平均值, 将所得结果按序排列形成 融合后的图像特征向
量, 再将所有融合后的图像特征向量按序排列形成融合后的图像特征向量集Zi, Zi=
{z1,…,zi',…,zM}, 其中, zi'表示与第i'个目标对应的融合后的图像特 征向量;
步骤4): 将Zi通过第三全连接层得到输出向量Li, 根据Li获取第i个图像样本的最终特
征向量fi, fi=AvgPool(Gi),
其中, AvgPool(Gi)表示对Gi进行平均池
化操作, softmax( …)为softmax函数, LiT表示Li的转置;
步骤5): 将fi经过哈希层处理得到哈希层的输出hi, hi=tanh(WTfi+d), 其中, W表示哈希
层的权重, d表示哈希层的偏置, 对 hi进行哈希编码获取xi对应的哈希码bi, bi=sgn(hi), sgn
(·)为符号函数, 之后将hi经过分类层得到分类层的输出
其中,
sigmoid( …)为sigmoid函数,
表示分类层的权重,
表示
的转置,
表示分类层的偏
置;
步骤6): 定义待训练的哈希检索模型的损失函数, 将 随机打乱后的训练集输入待训练
的哈希检索模型后, 通过反向传播算法更新待训练的哈希检索模型, 训练结束后得到最终
的哈希检索模型, 具体过程如下:
步骤6)‑1: 设置最大迭代次数, 定义待训练的哈希检索模型的损失函数L如下: L=Lc+α
Lh+β Lq, 其中, α 与β 均为预设的超参数, Lh表示哈希损失,权 利 要 求 书 1/2 页
2
CN 115495607 A
2其中,
, yj表
示第j个样本xj的类别标签向量, 1≤j≤N,
为yi的转置, ||yi||2为yi的2‑范数, ||yj||2为
yj的2‑范数,
为hi的转置, hj为xj对应的哈希层的输 出, ||hi||2为hi的2‑范数, ||hj||2为hj
的2‑范数, K为预设的待训练的哈希检索模型输出的哈希码的长度, Lq表示成对量化损失,
其中,
为bi的转置, bj表示xj对应的哈希码, Lc表示分类
损失,
步骤6)‑2: 将随机打乱后的训练集输入待训练的哈希检索模型, 根据待训练的哈希检
索模型的损失函数, 使用Adam优化算法对待训练的哈希检索模型进行迭代优化, 直到达到
设置的最大迭代次数时, 停止迭代过程, 得到训练后的哈希检索模型;
步骤7): 使用训练后的哈希检索模型对原始多标签图像数据库中存储的图像样本进行
哈希编码, 得到对应的原始图像哈希码, 使用训练后的哈希检索模型对待检索图像进行哈
希编码, 得到对应的待检索图像哈希码;
步骤8): 在原始图像哈希码中查找出与待检索图像哈希码的海明距离最近的数据, 并
将该数据在原始多标签图像数据库中对应的图像样本作为最 终的检索结果, 完成对待检索
图像的哈希检索过程。
2.根据权利要求1所述的一种多标签图像的哈希检索方法, 其特征在于所述的最大迭
代次数为10 000次。权 利 要 求 书 2/2 页
3
CN 115495607 A
3
专利 一种多标签图像的哈希检索方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:27:28上传分享