全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211096135.3 (22)申请日 2022.09.08 (71)申请人 遥在 (山东) 数字科技有限公司 地址 250000 山东省济南市 市中区二环南 路新都会2号楼科创大厦1 1层1103 (72)发明人 黄来响 李宁 马玉广 苟振兴  (74)专利代理 机构 山东智达联合专利代理事务 所(普通合伙) 37303 专利代理师 李晓伟 (51)Int.Cl. G06T 15/20(2011.01) G06T 15/06(2011.01) G06T 15/08(2011.01) G06T 17/00(2006.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于多视点视频和动态神经辐射场生成三 维动态场景方法 (57)摘要 本发明适用于场景构建技术领域, 提供了一 种基于多视点视频和动态神经辐射场生成三维 动态场景方法, 包括以下步骤: 通过多台相机捕 获多视图视频; 获得相机的内在和外在参数; 通 过15个视图来训练动态神经辐射场, 其中14个视 图观察多人移动, 1个视图对所有数据集进行定 性和定量评估; 使用时变潜代码对动态场景进行 建模; 根据输入视频的时间变化对 具有不同重要 性的光线进行跨时间采样; 使用MLP架构和分层 策略训练动态神经辐射场; 生 成表示真实世界的 三维动态场景。 本发明能够以紧凑且富有表现力 的形式来表 示动态场景的真实世界, 使用一组潜 代码来表 示场景动态, 通过结合光线重要性采样 的分层训练方案, 显著提高生 成图像的训练速度 和感知质量。 权利要求书1页 说明书5页 附图1页 CN 115423924 A 2022.12.02 CN 115423924 A 1.基于多视点视频和动态神经辐射场生成三维动态场景方法, 其特征在于, 所述方法 包括以下步骤: 通过多台相机捕获多视图视频; 获得相机的内在和外在参数; 通过15个视图来训练动态神经辐射场, 其中14个视图观察多人移动, 1个视图对所有数 据集进行定性和定量评估; 使用时变潜代码对动态场景进行建模; 根据输入视频的时间变化对具有不同重要性的光线 进行跨时间采样; 使用MLP架构和分层策略训练动态神经辐射场; 生成表示真实世界的三维动态场景。 2.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法, 其特征在于, 通过多台相机捕获多视图视频时, 以2k ×2k的分辨率和30FPS的帧速率捕获时 间同步的多视图视频。 3.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法, 其特征在于, 使用时变潜代码zt对动态场景进行建模中, 学习了一组时间相关的潜代码F Θ: (x, d, zt) →(c, σ ) , 其中t为离散时间变量, x表示位置, d表示方向, c为RGB辐射, σ 为不透 明度。 4.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法, 其特征在于, 根据输入视频的时间变化对具有不同重要性的光线进行跨时间采样 中, 对于 在时间t内观察到的每条射线r计算权重ω(t)(r), 具体的, 每次训练迭代中随机选择一个 时间范围t, 先对帧t的所有输入视图中的光线权重进行归一化, 然后根据这些权重应用逆 变换采样来选择光线, 根据每条光线的颜色与其在时间上的全局中值的残差来计算每条光 线的权重, 同时也计算每两个连续帧中的色差均值和方差以计算每条光线的权重, 结合上 述两种策略对具有不同重要性的光线 进行跨时间采样。 5.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法, 其特征在于, 使用MLP架构和分层策略训练动态神经辐射场中, 实现对前8个MLP层使用512 个激活函数的神经元, 并使用102 4维潜在代码进 行训练; 在分层策略训练中, 只训练相隔K= 30帧的关键帧。 6.根据权利要求1所述的基于多视点视频和动态神经辐射场生成三维动态场景方法, 其特征在于, 所述生成表示真实世界的三维动态场景 的具体步骤为: 使用体积渲染技术来 渲染在空间和时间上 给定查询视图的神经辐射场, 以生成表示真实世界的三维动态场景。权 利 要 求 书 1/1 页 2 CN 115423924 A 2基于多视点视频和动态神经辐射场生成三维动态场景方 法 技术领域 [0001]本发明涉及场景构建技术领域, 具体是涉及一种基于多视点视频和动 态神经辐射 场生成三维动态场景 方法。 背景技术 [0002]从电影制作到虚拟现实 (VR) 和增强现实 (AR) , 真实世界动态场景的真实感表示和 渲染是极具挑战性的难题。 动态现实世界场景很难使用经典的基于网格的表示进行建模, 因为它们通常包含薄结构、 半透明对象、 镜面反射曲面和拓扑结构, 这些结构由于多个对象 和人的复杂场景运动而不断演变。 [0003]神经辐射场 (NeRF) 是一种深度渲染方法, 其主要特点是场景隐式表达和图像的体 积渲染。 不同于传统的三维重建方法把场景表示为点云、 网格、 体素等显式的表达, NeRF将 场景建模成一个连续的5D辐射场隐式存储在神经网络中, 输入稀疏的多角度带pose的图像 训练得到一个神经辐 射场模型, 根据这个模型可以渲染出任意视角下 的清晰的照片。 通俗 来讲, 就是构 造一个隐式的渲 染流程, 其输入是某个视角下发射的光线的位置o, 方向d以及 对应的坐标(x,y,z), 送入神经辐射场Fθ得到体积密度和颜色, 最后再通过体渲染得到最终 的图像。 NeRF采用隐式表 示3D场景, 隐式表 示通常用一个函数来描述场景几何, 可以理解为 将复杂的三维场景表达信息存储在函数 的参数中。 隐式表示函数是种连续化的表达, 对于 场景的表达会更为精细。 NeRF做到了利用 ”隐式表示“实现了照片级的视角合成效果, 它选 择了Volume作为中间3D场景表征, 然后再通过体积渲染 (Volume  Rendering) 实现了特定视 角照片合成效果。 [0004]光场是关于光的某个物理量在空间内的分布, 光场描述空间中任意一点向任意方 向的光线的强度。 完整描述光场的全光函数(Plenoptic  Function)是个一个7维函数, 包含 任意一点的位置(x,  y, z)、 任意方 向、 波长( λ )和时间(t), 其中颜色和时间维度的信息通 常是被RGB通道和不同帧表示。 相机阵列是最经典的光场采集办法, 其 获取的信息不再是一 幅简单的2D像素阵列, 而 是三维空间中的光线, 也就是说光场中是包含三 维信息的。 6D全光 函数是渲染真实世界动态场景 的合适表示, 因为它完全解释了我们视觉的真实性, 并能够 在每个时刻渲染每个可能的视图。 完全测量光场需要在空间中的每个位置、 时间放置一个 广角相机。 NeRF提供了一种规避此问题的方法: 不是直接编码全光函数, 而 是将场景的辐射 场编码为隐式的、 基于坐标的函数, 可以通过光线投射进 行采样以近似全光函数。 表示3D 视 频的问题包括学习 3D位置x、 方 向d、 时间t、 RGB辐射c和不透明度σ 的6D光学函数。 基于NeRF 学习函数近似静态场景的5D全光 函数, 向函数 添加时间依赖性可以表示动态场景。 [0005]但是从动态场景三维重建的角度来看, NeRF有几个较为明显的不足: 1.NeRF存在 训练速度 慢、 渲染速度慢的问题, 只能用于静态场景、 泛化性能差、 需要 大量视角。 使用光场 对输入图像光线进行重新采样以生成新视图的方法, 其缺点是需要密集采样才能高质量渲 染复杂场景。 2.直接将动态场景重建为每帧的神经辐 射场序列是不可能的, 因为其存储空 间和训练 时间是随时间线性增加的。 对视频数据进行基于射线投射的神经渲 染需要大量的说 明 书 1/5 页 3 CN 115423924 A 3

PDF文档 专利 基于多视点视频和动态神经辐射场生成三维动态场景方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多视点视频和动态神经辐射场生成三维动态场景方法 第 1 页 专利 基于多视点视频和动态神经辐射场生成三维动态场景方法 第 2 页 专利 基于多视点视频和动态神经辐射场生成三维动态场景方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。