全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210216072.4 (22)申请日 2022.03.07 (71)申请人 京东科技信息技 术有限公司 地址 100176 北京市大兴区经济技 术开发 区科创十一 街18号院2号楼6层6 01 (72)发明人 陶大程 罗红晨  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06F 17/16(2006.01) G06F 17/15(2006.01) G06V 10/774(2022.01)G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 生成可供性检测模型的方法、 装置、 设备及 存储介质 (57)摘要 本申请公开了一种生成可供性检测模型的 方法、 装置、 设备及存储介质, 涉及人工智能技术 领域。 该方法的一具体实施方式包括: 获取第一 人称视角的特征图和一组第三人称视角的特征 图; 将一组第三人称视角的特征图输入到预设的 可供性特征挖掘模型中, 得到可供性特征; 将第 一人称视角的特征图和可供性特征分别输入到 初始的可供性检测模型中, 得到第一人称视角的 特征图对应的预测值, 以及可供性特征对应的预 测值; 利用以下至少一项确定的目标损失函数, 对初始的可供性检测模型进行训练, 得到可供性 检测模型: 第一损失函数、 第二损失函数、 第三损 失函数。 权利要求书3页 说明书14页 附图7页 CN 114580542 A 2022.06.03 CN 114580542 A 1.一种生成可 供性检测模型的方法, 包括: 获取第一人称视角的特 征图和一组第三人称视角的特 征图; 将所述一组第 三人称视角的特征图输入到预设的可供性特征挖掘模型中, 得到可供性 特征; 将所述第一人称视角的特征图和所述可供性特征分别输入到初始的可供性检测模型 中, 得到所述第一人称视角的特 征图对应的预测值, 以及所述可 供性特征对应的预测值; 利用以下至少一项确定的目标损 失函数, 对初始 的可供性检测模型进行训练, 得到可 供性检测模型: 第一损失函数、 第二损失函数、 第三损失函数, 其中, 所述第一损失函数基于 以下步骤确定: 根据所述第一人称视角的特征图对应的预测值与其对应的可供性类别标 签, 以及所述可供性特征对应的预测值的交叉熵与其对应可供性类别标签, 确定第一损失 函数; 所述第二损失函数基于以下步骤确定: 根据所述第一人称视角的特征图对应的预测 值与其对应的可供性类别标签, 以及所述可供性特征对应的预测值与其对应的可供性类别 标签, 确定L2损失函数; 所述第三损失函数基于以下步骤确定: 根据所述第一人称 视角的特 征图对应的预测值与其转置相乘, 得到第一共生矩阵; 以及根据所述可供性特征对应的预 测值与其转置相乘, 得到第二共生矩阵; 根据所述第一共生矩阵和所述第二共生矩阵的交 叉熵, 确定第三损失函数。 2.根据权利要求1所述的方法, 其中, 所述将所述一组第 三人称视角的特征图输入到预 设的可供性特征挖掘模型中, 得到可 供性特征, 包括: 将所述一组第三人称视角的特征图进行reshape操作, 生成多维矩阵, 其中, 多维矩阵 的行与所述一组第三人称视角的特征图的通道维度相同, 多维矩阵的列为N*h*w, N为一组 第三人称视角的图像的数量, h和w分别为所述 一组第三人称视角的特 征图的长和宽; 将所述多维矩阵分解成基矩阵W和系数矩阵H; 对所述基矩阵W和所述系数矩阵H进行迭代更新, 以将所述多维矩阵进行非负矩阵分解 为更新后的基矩阵W和更新后的系数矩阵H的乘积; 对更新后的基矩阵W和更新后的系数矩阵H进行reshap e操作, 得到reshape操作后的特 征图; 根据一组第三人称视角的特征图与reshape操作后的特征图进行特征融合, 得到可供 性特征。 3.根据权利要求1所述的方法, 其中, 所述第二损失函数基于以下步骤确定: 将所述第一人称视角的特征图输入到预设的映射层中, 将所述第 一人称视角的特征图 映射到与所述 一组第三人称视角的特 征图对应的特 征空间中; 将所述一组第三人称视角的特征图和所述第一人称视角的特征图分别输入到预设的 卷积层中, 并将得到的结果分别经 过池化层; 根据池化后的结果, 确定所述 L2损失函数。 4.根据权利要求1 ‑3任一项所述的方法, 其中, 所述利用以下至少一项确定的目标损失 函数, 对初始的可供性检测模型进行训练, 得到可供性检测模型: 第一损失函数、 第二损失 函数、 第三损失函数, 包括: 利用以下至少一项确定的目标损 失函数, 对初始 的可供性检测模型进行训练, 得到可 供性检测模型: 第一损失函数与其对应的权重、 第二损失函数与其对应的权重、 第三损失函权 利 要 求 书 1/3 页 2 CN 114580542 A 2数与其对应的权 重。 5.根据权利要求1所述的方法所述的方法, 其中, 所述获取第 一人称视角的特征图和一 组第三人称视角的特 征图, 包括: 获取第一人称视角的图像和一组第三人称视角的图像, 其中, 所述第一人称视角的图 像和所述 一组第三人称视角的图像包括相同类别的对象; 将所述第一人称视角的图像和所述一组第三人称视角的图像分别输入到预设的特征 提取器中, 得到所述第一人称视角的特 征图, 以及所述 一组第三人称视角的特 征图。 6.一种识别可 供性类别的方法, 包括: 获取待预测的第一人称视角的图像; 将所述待预测的第 一人称视角的图像输入到预设的特征提取器中, 得到待预测的第 一 人称视角的特 征图; 将所述待预测的第一人称视角的特征图输入到如权利要求1 ‑5任一项所述的可供性检 测模型中, 得到所述待预测的第一人称视角的图像对应的可 供性类别。 7.一种生成可 供性检测模型的装置, 包括: 特征图获取模块, 被配置成获取第一人称视角的特征图和一组第三人称视角的特征 图; 特征得到模块, 被配置成将所述一组第 三人称视角的特征图输入到预设的可供性特征 挖掘模型中, 得到可 供性特征; 预测值得到模块, 被配置成将所述第 一人称视角的特征图和所述可供性特征分别输入 到初始的可供性检测模型中, 得到所述第一人称视角的特征图对应的预测值, 以及所述可 供性特征对应的预测值; 模型训练模块, 被配置成利用以下至少一项确定的目标损 失函数, 对初始 的可供性检 测模型进行训练, 得到可供性检测模型: 第一损失函数、 第二损失函数、 第三损失函数, 其 中, 所述第一损失函数基于以下步骤确定: 根据所述第一人称视角的特征图对应的预测值 与其对应的可供性类别标签, 以及所述可供性特征对应的预测值的交叉熵与其对应可供性 类别标签, 确定第一损失函数; 所述第二损失函数基于以下步骤确定: 根据所述第一人称视 角的特征图对应的预测值与其对应的可供性类别标签, 以及所述可供性特征对应的预测值 与其对应的可供性类别标签, 确定L2损失函数; 所述第三损失函数基于以下步骤确定: 根据 所述第一人称视角的特征图对应的预测 值与其转置相乘, 得到第一共生矩阵; 以及根据所 述可供性特征对应的预测值与其转置相乘, 得到第二共生矩阵; 根据所述第一共生矩阵和 所述第二共生矩阵的交叉熵, 确定第三损失函数。 8.根据权利要求7 所述的装置, 其中, 所述特 征得到模块, 进一 步被配置成: 将所述一组第三人称视角的特征图进行reshape操作, 生成多维矩阵, 其中, 多维矩阵 的行与所述一组第三人称视角的特征图的通道维度相同, 多维矩阵的列为N*h*w, N为一组 第三人称视角的图像的数量, h和w分别为所述 一组第三人称视角的特 征图的长和宽; 将所述多维矩阵分解成基矩阵W和系数矩阵H; 对所述基矩阵W和所述系数矩阵H进行迭代更新, 以将所述多维矩阵进行非负矩阵分解 为更新后的基矩阵W和更新后的系数矩阵H的乘积; 对更新后的基矩阵W和更新后的系数矩阵H进行reshap e操作, 得到reshape操作后的特权 利 要 求 书 2/3 页 3 CN 114580542 A 3

.PDF文档 专利 生成可供性检测模型的方法、装置、设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 生成可供性检测模型的方法、装置、设备及存储介质 第 1 页 专利 生成可供性检测模型的方法、装置、设备及存储介质 第 2 页 专利 生成可供性检测模型的方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:23:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。