全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111676055.0 (22)申请日 2021.12.31 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 祁仲昂 骆颖民 单瀛  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 代理人 毛丹 (51)Int.Cl. G06F 16/75(2019.01) G06F 40/30(2020.01) G06V 10/80(2022.01) G06K 9/62(2022.01) (54)发明名称 视频标注方法、 装置、 计算机设备和计算机 程序产品 (57)摘要 本申请涉及一种视频标注方法、 装置、 计算 机设备、 存储介质和计算机程序产品。 方法包括: 对于训练视频集合中的训练视频, 获取训练视频 对应的训练三元组; 训练三元组包括视频标识、 训练标签以及训练关系; 分别获取视频标识、 第 一训练关系以及训练标签各自对应的语义表达 特征; 将视频标识对应的语义表达特征和视频标 识对应的内容提取特征输入融合模 型, 得到训练 融合特征; 基于训练融合特征以及第一训练关系 对应的语义表达特征, 确定预测标签特征; 基于 训练标签对应的语义表达特征和预测标签特征 之间的差异, 调整各个语义表达特征以及融合模 型的模型参数, 得到各个目标语义表达特征以及 目标融合模 型。 采用本方法能够提高视频标注时 标签多样性。 权利要求书6页 说明书25页 附图10页 CN 114329062 A 2022.04.12 CN 114329062 A 1.一种视频 标注方法, 其特 征在于, 所述方法包括: 确定训练视频集合, 对于训练视频集合中的训练视频, 获取所述训练视频对应的第一 训练三元组; 所述第一训练三元组包括所述训练视频对应的视频标识、 训练标签, 以及所述 训练视频与所述训练标签之间的第一训练关系; 分别获取所述视频标识、 所述第 一训练关系以及所述训练标签各自对应的语义表达特 征; 将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合 模型, 得到训练融合特征; 所述内容提取特征是对所述视频标识对应的关联内容进行特征 提取得到的; 基于所述训练融合特征以及所述第 一训练关系对应的语义表达特征, 确定与 所述第一 训练关系对应的第一预测标签特 征; 基于所述训练标签对应的语义表达特征和所述第 一预测标签特征之间的第 一差异, 调 整各个语义表达特征以及所述融合模型的模型参数, 得到调整后的各个目标语义表达特征 以及调整后的目标融合模型; 各个所述目标语义表达特征以及所述目标融合模型用于配合实现对所述训练视频进 行标注。 2.根据权利要求1所述的方法, 其特征在于, 所述融合模型包括映射层; 所述将所述视 频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型, 得到训练 融合特征, 包括: 通过所述映射层将所述内容提取特征映射至所述视频标识的语义表达特征所在的语 义空间, 得到所述内容 提取特征对应的映射特 征; 融合所述映射特征和所述视频标识对应的语义表达特征, 得到所述训练视频对应的训 练融合特 征; 所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差 异, 调整各个语义表达特征以及所述融合模型 的模型参数, 得到调整后的各个目标语义表 达特征以及调整后的目标融合模型, 包括: 基于所述第 一差异, 调整所述第 一训练三元组对应的各个语义表达特征以及所述映射 层的模型参数, 得到调整后的各个目标语义表达特 征以及调整后的目标映射层。 3.根据权利要求2所述的方法, 其特征在于, 所述融合模型还包括关注度分配层; 所述 融合所述映射特征和所述视频标识对应的语义表达特征, 得到所述训练视频对应的训练融 合特征, 包括: 通过所述关注度分配层分别计算所述映射特征和所述视频标识的语义表达特征各自 的关注度, 得到所述映射特征对应的第一关注度以及与所述视频标识的语义表达特征对应 的第二关注度; 基于所述第 一关注度对所述映射特征进行关注 处理得到 内容关注特征, 基于所述第 二 关注度对所述视频 标识的语义表达特 征进行关注处 理得到标识关注特 征; 拼接所述内容关注特 征与所述标识关注特 征, 得到所述训练融合特 征; 所述基于所述第 一差异, 调整所述第 一训练三元组对应的各个语义表达特征以及所述 映射层的模型参数, 得到调整后的各个目标语义表达特 征以及调整后的目标映射层, 包括:权 利 要 求 书 1/6 页 2 CN 114329062 A 2基于所述第一差异, 调整各个语义表达特征、 所述映射层的模型参数以及所述关注度 分配层的模型参数, 得到调整后的各个目标语义表达特征、 调整后的目标映射层以及调整 后的目标关注度分配层。 4.根据权利要求1所述的方法, 其特征在于, 在所述基于所述训练标签对应的语义表达 特征和所述第一预测标签特征之间的第一差异, 调整 各个语义表达特征以及所述融合模型 的模型参数, 得到调整后的各个目标语义表达特征以及调整后的目标融合模型之前, 所述 方法还包括: 获取替换融合特 征; 所述替换融合特 征为其他训练视频对应的训练融合特 征; 基于所述替换融合特征与 所述第一训练关系 对应的语义表达特征, 确定与 所述第一训 练关系对应的第二预测标签特 征; 所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差 异, 调整各个语义表达特征以及所述融合模型 的模型参数, 得到调整后的各个目标语义表 达特征以及调整后的目标融合模型, 包括: 基于所述训练标签对应的语义表达特 征与第二预测标签特 征确定第二差异; 基于所述第 二差异以及所述第 一差异之间的第 一目标差异, 调整各个语义表达特征以 及所述融合模型的模型参数, 得到调整后的各个目标语义表达特征以及调整后的目标融合 模型。 5.根据权利要求1所述的方法, 其特征在于, 在所述基于所述训练标签对应的语义表达 特征和所述第一预测标签特征之间的第一差异, 调整 各个语义表达特征以及所述融合模型 的模型参数, 得到调整后的各个目标语义表达特征以及调整后的目标融合模型之前, 所述 方法还包括: 获取替换标签特征; 所述替换标签特征为其他训练视频对应的训练标签所对应的语义 表达特征; 所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差 异, 调整各个语义表达特征以及所述融合模型 的模型参数, 得到调整后的各个目标语义表 达特征以及调整后的目标融合模型, 包括: 基于所述第一预测标签特 征和所述 替换标签特征确定第三差异; 基于所述第 一差异以及所述第 三差异之间的第 二目标差异, 调整各个语义表达特征以 及所述融合模型的模型参数, 得到调整后的各个目标语义表达特征以及调整后的目标融合 模型。 6.根据权利要求1所述的方法, 其特征在于, 在所述将所述视频标识对应的语义表达特 征和所述视频标识对应的内容提取特征输入融合模型, 得到训练融合特征之前, 所述方法 还包括: 获取所述视频 标识对应的关联内容; 将所述关联内容输入已训练 的且与所述关联内容对应的内容分类模型中, 通过所述内 容分类模型对所述关联内容 提取用于分类的内容特 征; 将提取的用于分类的内容特 征确定为与所述关联内容对应的内容 提取特征。 7.根据权利要求6所述的方法, 其特征在于, 所述关联内容包括所述训练标识对应的视 频帧、 背景音乐以及关联文本之间的至少一种; 各个不同的关联内容对应不同的内容分类权 利 要 求 书 2/6 页 3 CN 114329062 A 3

.PDF文档 专利 视频标注方法、装置、计算机设备和计算机程序产品

文档预览
中文文档 42 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共42页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频标注方法、装置、计算机设备和计算机程序产品 第 1 页 专利 视频标注方法、装置、计算机设备和计算机程序产品 第 2 页 专利 视频标注方法、装置、计算机设备和计算机程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:45:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。