专利一种多标签图像的哈希检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210748134.6 (22)申请日 2022.06.29 (71)申请人宁波大学地址 315211 浙江省宁波市江北区风华路 818号 (72)发明人钱江波　彭良康　钱承武　宁轩　 (74)专利代理机构宁波奥圣专利代理有限公司 33226 专利代理师程天鹏 (51)Int.Cl. G06F 16/58(2019.01) G06F 16/55(2019.01) G06F 16/51(2019.01) G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称一种多标签图像的哈希检索方法 (57)摘要本发明公开了一种多标签图像的哈希检索方法，特点是先提取图像中每个目标的视觉特征向量与相对位置向量，通过第一、第二全连接层获取融合后的特征向量，之后经过第三全连接层，最后在第三全连接层与分类层之间添加哈希层，训练时将训练数据集随机打乱后输入待训练的哈希检索模型，根据输出结果与对应的原始标签信息修正模型参数，得到训练后的哈希检索模型，再用训练后的哈希检索模型分别对原始的图像样本及待检索图像进行哈希编码，在原始图像哈希码中查找出与待检索图像哈希码的海明距离最近的数据，完成对待检索图像的哈希检索过程；优点是能更加精细地利用原始标签信息，并且哈希检索模型能够充分训练难训练样本对，从而提高检索准确性。权利要求书2页说明书5页 CN 115495607 A 2022.12.20 CN 115495607 A 1.一种多标签图像的哈希检索方法，其特征在于包括以下步骤：步骤1)：在原始多标签图像数据库中存储的图像样本中选取N个图像样本并组成训练集X， X＝{x1,…,xi,…,xN}，其中， xi表示X中第i个图像样本， 1≤i≤N，将X中的每个图像样本对应的类别标签按序排列形成类别标签集Y， Y＝{y1,…,yi,…,yN}，其中， yi表示xi对应的类别标签向量；步骤2)：将X中的每个图像样本通过目标检测网络得到M个目标的视觉特征向量与每个目标的位置，将M个目标的视觉特征向量归入一个目标集Vi， Vi＝{v1,…,vi',…,vM}，其中， dv＝2048， vi'表示第i'个目标的视觉特征向量， 1≤i'≤M，定义M个目标所在的区域为目标区域，在目标区域内获取基准点坐标，该基准点坐标的横坐标为所有目标的左上角顶点的最小横坐标值，该基准点的纵坐标为所有目标的左上角顶点的最小纵坐标值，将每个目标的左上角顶点坐标减去基准点坐标得到左上相对坐标，将每个目标的右下角顶点坐标减去基准点坐标得到右下相对坐标，再以每个目标的左上相对坐标与右下相对坐标组成的向量作为该目标的相对位置向量，将所有目标的相对位置向量按序排列形成相对位置向量集Pi， Pi＝{p1,…,pi',…,pM}，其中， pi'表示第i'个目标的相对位置向量；步骤3)：建立待训练的哈希检索模型，包括输入数据层、第一全连接层、第二全连接层、第三全连接层、哈希层和分类层，其中第一全连接层、第二全连接层和第三全连接层均采用 RELU激活函数，将Vi中的视觉特征向量经过第一全连接层降维得到特征维度为768的降维后的视觉特征向量，将Pi中的相对位置向量经过第二全连接层升维得到特征维度为768的升维后的相对位置向量，将每个降维后的视觉特征向量与对应的升维后的相对位置向量进行逐位相加并求相加的两个元素的平均值，将所得结果按序排列形成融合后的图像特征向量，再将所有融合后的图像特征向量按序排列形成融合后的图像特征向量集Zi， Zi＝ {z1,…,zi',…,zM}，其中， zi'表示与第i'个目标对应的融合后的图像特征向量；步骤4)：将Zi通过第三全连接层得到输出向量Li，根据Li获取第i个图像样本的最终特征向量fi， fi＝AvgPool(Gi)，其中， AvgPool(Gi)表示对Gi进行平均池化操作， softmax( …)为softmax函数， LiT表示Li的转置；步骤5)：将fi经过哈希层处理得到哈希层的输出hi， hi＝tanh(WTfi+d)，其中， W表示哈希层的权重， d表示哈希层的偏置，对 hi进行哈希编码获取xi对应的哈希码bi， bi＝sgn(hi)， sgn (·)为符号函数，之后将hi经过分类层得到分类层的输出其中， sigmoid( …)为sigmoid函数，表示分类层的权重，表示的转置，表示分类层的偏置；步骤6)：定义待训练的哈希检索模型的损失函数，将随机打乱后的训练集输入待训练的哈希检索模型后，通过反向传播算法更新待训练的哈希检索模型，训练结束后得到最终的哈希检索模型，具体过程如下：步骤6)‑1：设置最大迭代次数，定义待训练的哈希检索模型的损失函数L如下： L＝Lc+α Lh+β Lq，其中， α 与β 均为预设的超参数， Lh表示哈希损失，权　利　要　求　书 1/2 页 2 CN 115495607 A 2其中，， yj表示第j个样本xj的类别标签向量， 1≤j≤N，为yi的转置， ||yi||2为yi的2‑范数， ||yj||2为 yj的2‑范数，为hi的转置， hj为xj对应的哈希层的输出， ||hi||2为hi的2‑范数， ||hj||2为hj 的2‑范数， K为预设的待训练的哈希检索模型输出的哈希码的长度， Lq表示成对量化损失，其中，为bi的转置， bj表示xj对应的哈希码， Lc表示分类损失，步骤6)‑2：将随机打乱后的训练集输入待训练的哈希检索模型，根据待训练的哈希检索模型的损失函数，使用Adam优化算法对待训练的哈希检索模型进行迭代优化，直到达到设置的最大迭代次数时，停止迭代过程，得到训练后的哈希检索模型；步骤7)：使用训练后的哈希检索模型对原始多标签图像数据库中存储的图像样本进行哈希编码，得到对应的原始图像哈希码，使用训练后的哈希检索模型对待检索图像进行哈希编码，得到对应的待检索图像哈希码；步骤8)：在原始图像哈希码中查找出与待检索图像哈希码的海明距离最近的数据，并将该数据在原始多标签图像数据库中对应的图像样本作为最终的检索结果，完成对待检索图像的哈希检索过程。 2.根据权利要求1所述的一种多标签图像的哈希检索方法，其特征在于所述的最大迭代次数为10 000次。权　利　要　求　书 2/2 页 3 CN 115495607 A 3

专利 一种多标签图像的哈希检索方法

专利一种多标签图像的哈希检索方法