全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210178651.4 (22)申请日 2022.02.25 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 杨威 叶晓青 谭啸 孙昊  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 郭德霞 (51)Int.Cl. G06T 7/55(2017.01) G06T 7/73(2017.01) G06V 10/74(2022.01) G06V 10/80(2022.01) (54)发明名称 模型训练和图像处理方法、 装置、 设备及存 储介质 (57)摘要 本公开提供了一种模型训练和图像处理方 法、 装置、 设备及存储介质, 涉及人工智能技术领 域, 具体涉及计算机视觉、 3D视觉和深度学习技 术。 具体实现方案为: 将单目视频中相邻两图像 帧输入至位姿估计模型, 得到所述相邻两图像帧 中第一图像帧到第二图像帧的位姿变换信息, 以 及将所述第一图像帧输入至深度估计模型, 得到 所述第一图像帧的深度图; 根据相机内参、 所述 位姿变换信息和所述深度图, 以及所述第一图像 帧中像素点的像素特征和描述特征, 构建所述第 二图像帧的重构图; 所述描述特征包括全局描述 特征和/或局部描述特征; 根据所述第二图像帧 和所述重构图, 对所述位姿估计模 型和所述深度 估计模型进行联合训练。 上述技术方案可提高模 型的训练精度。 权利要求书3页 说明书10页 附图5页 CN 114549612 A 2022.05.27 CN 114549612 A 1.一种模型训练方法, 包括: 将单目视频中相邻 两图像帧输入至位姿估计模型, 得到所述相邻 两图像帧中第 一图像 帧到第二图像 帧的位姿变换信息, 以及将所述第一图像 帧输入至深度估计模型, 得到所述 第一图像帧的深度图; 根据相机内参、 所述位姿变换信息和所述深度图, 以及所述第一图像帧中像素点的像 素特征和描述特征, 构建所述第二图像帧的重构图; 其中, 所述描述特征包括全局描述特征 和/或局部描述特 征; 根据所述第 二图像帧和所述重构图, 对所述位姿估计模型和所述深度估计模型进行联 合训练。 2.根据权利要求1所述的方法, 其中, 所述根据相机内参、 所述位姿变换信息和所述深 度图, 以及所述第一图像 帧中像素点的像素特征和描述特征, 构建所述第二图像 帧的重构 图, 包括: 根据相机内参、 所述位姿变换信息和所述深度图, 以及所述第一图像帧中像素点的像 素特征, 构建所述第二图像帧的第一重构图; 根据相机内参、 所述位姿变换信息和所述深度图, 以及所述第一图像帧中像素点的描 述特征, 构建所述第二图像帧的第二重构图。 3.根据权利要求2所述的方法, 其中, 所述根据相机内参、 所述位姿变换信息和所述深 度图, 以及所述第一图像帧中像素点的描述特征, 构建所述第二图像帧的第二重构图, 包 括: 根据相机内参、 所述位姿变换信息和所述深度图, 以及所述第一图像帧中像素点的全 局描述特 征, 构建所述第二重构图中的第一子图; 和/或, 根据相机内参、 所述位姿变换信息和所述深度图, 以及所述第一图像帧中像素点的局 部描述特 征, 构建所述第二重构图中的第二子图。 4.根据权利要求2所述的方法, 其中, 所述根据相机内参、 所述位姿变换信息和所述深 度图, 以及所述第一图像帧中像素点的描述特征, 构建所述第二图像帧的第二重构图, 包 括: 对所述第一图像帧中像素点的全局描述特征和所述局部描述特征进行融合, 得到 融合 特征; 根据相机内参、 所述位姿变换信息和所述深度图, 以及融合特征, 构建所述第 二图像帧 的第二重构图。 5.根据权利要求3所述的方法, 其中, 所述根据所述第二图像帧和所述重构图, 对所述 位姿估计模型和所述深度估计模型进行 联合训练, 包括: 根据应用场景信息, 对所述第二图像帧和所述第一子 图之间的第二相似度差异, 以及 第二图像帧和所述第二子图之间的第三相似度差异进行 更新; 根据所述第 二图像帧和所述第 一重构图之间的第 一相似度差异, 更新后的第 二相似度 差异, 以及更新后的第三相似度差异, 确定训练损失; 采用所述训练损失, 对所述 位姿估计模型和所述深度估计模型进行 联合训练。 6.根据权利要求1所述的方法, 还 包括: 对原始视频中的移动物体进行删除, 得到所述单目视频。权 利 要 求 书 1/3 页 2 CN 114549612 A 27.一种图像处 理方法, 包括: 获取目标图像帧; 将所述目标图像帧输入至训练后的深度估计模型, 得到所述目标图像帧的深度图; 其中, 所述深度估计模型 是通过权利要求1 ‑6中任一所述的模型训练方法训练得到 。 8.一种模型训练装置, 包括: 位姿深度信息确定模块, 用于将单目视频中相邻两 图像帧输入至位姿估计模型, 得到 所述相邻两图像帧中第一图像帧到第二图像帧的位姿变换信息, 以及将所述第一图像帧输 入至深度估计模型, 得到所述第一图像帧的深度图; 重构图确定模块, 用于根据相机内参、 所述位姿变换信 息和所述深度图, 以及所述第一 图像帧中像素点的像素特征和描述特征, 构建所述第二图像帧的重构图; 其中, 所述描述特 征包括全局描述特 征和/或局部描述特 征; 联合训练模块, 用于根据所述第二图像帧和所述重构图, 对所述位姿估计模型和所述 深度估计模型进行 联合训练。 9.根据权利要求8所述的装置, 其中, 所述重构图确定模块包括: 第一重构图确定单元, 用于根据相机内参、 所述位姿变换信 息和所述深度图, 以及所述 第一图像帧中像素点的像素 特征, 构建所述第二图像帧的第一重构图; 第二重构图确定单元, 用于根据相机内参、 所述位姿变换信 息和所述深度图, 以及所述 第一图像帧中像素点的描述特 征, 构建所述第二图像帧的第二重构图。 10.根据权利要求9所述的装置, 其中, 所述第二重构图确定单 元具体用于: 根据相机内参、 所述位姿变换信息和所述深度图, 以及所述第一图像帧中像素点的全 局描述特 征, 构建所述第二重构图中的第一子图; 和/或, 根据相机内参、 所述位姿变换信息和所述深度图, 以及所述第一图像帧中像素点的局 部描述特 征, 构建所述第二重构图中的第二子图。 11.根据权利要求9所述的装置, 其中, 所述第二重构图确定单 元还具体用于: 对所述第一图像帧中像素点的全局描述特征和所述局部描述特征进行融合, 得到 融合 特征; 根据相机内参、 所述位姿变换信息和所述深度图, 以及融合特征, 构建所述第 二图像帧 的第二重构图。 12.根据权利要求10所述的装置, 其中, 所述联合训练模块具体用于: 根据应用场景信息, 对所述第二图像帧和所述第一子 图之间的第二相似度差异, 以及 第二图像帧和所述第二子图之间的第三相似度差异进行 更新; 根据所述第 二图像帧和所述第 一重构图之间的第 一相似度差异, 更新后的第 二相似度 差异, 以及更新后的第三相似度差异, 确定训练损失; 采用所述训练损失, 对所述 位姿估计模型和所述深度估计模型进行 联合训练。 13.根据权利要求8所述的装置, 还 包括: 单目视频确定模块, 用于对原 始视频中的移动物体进行删除, 得到所述单目视频。 14.一种图像处 理装置, 包括: 目标图像帧获取模块, 用于获取目标图像帧; 深度图确定模块, 用于将所述目标图像帧输入至训练后的深度估计模型, 得到所述目权 利 要 求 书 2/3 页 3 CN 114549612 A 3

.PDF文档 专利 模型训练和图像处理方法、装置、设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练和图像处理方法、装置、设备及存储介质 第 1 页 专利 模型训练和图像处理方法、装置、设备及存储介质 第 2 页 专利 模型训练和图像处理方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。