专利视频标注方法、装置、计算机设备和计算机程序产品

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111676055.0 (22)申请日 2021.12.31 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人祁仲昂　骆颖民　单瀛　 (74)专利代理机构华进联合专利商标代理有限公司 44224 代理人毛丹 (51)Int.Cl. G06F 16/75(2019.01) G06F 40/30(2020.01) G06V 10/80(2022.01) G06K 9/62(2022.01) (54)发明名称视频标注方法、装置、计算机设备和计算机程序产品 (57)摘要本申请涉及一种视频标注方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：对于训练视频集合中的训练视频，获取训练视频对应的训练三元组；训练三元组包括视频标识、训练标签以及训练关系；分别获取视频标识、第一训练关系以及训练标签各自对应的语义表达特征；将视频标识对应的语义表达特征和视频标识对应的内容提取特征输入融合模型，得到训练融合特征；基于训练融合特征以及第一训练关系对应的语义表达特征，确定预测标签特征；基于训练标签对应的语义表达特征和预测标签特征之间的差异，调整各个语义表达特征以及融合模型的模型参数，得到各个目标语义表达特征以及目标融合模型。采用本方法能够提高视频标注时标签多样性。权利要求书6页说明书25页附图10页 CN 114329062 A 2022.04.12 CN 114329062 A 1.一种视频标注方法，其特征在于，所述方法包括：确定训练视频集合，对于训练视频集合中的训练视频，获取所述训练视频对应的第一训练三元组；所述第一训练三元组包括所述训练视频对应的视频标识、训练标签，以及所述训练视频与所述训练标签之间的第一训练关系；分别获取所述视频标识、所述第一训练关系以及所述训练标签各自对应的语义表达特征；将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型，得到训练融合特征；所述内容提取特征是对所述视频标识对应的关联内容进行特征提取得到的；基于所述训练融合特征以及所述第一训练关系对应的语义表达特征，确定与所述第一训练关系对应的第一预测标签特征；基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异，调整各个语义表达特征以及所述融合模型的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标融合模型；各个所述目标语义表达特征以及所述目标融合模型用于配合实现对所述训练视频进行标注。 2.根据权利要求1所述的方法，其特征在于，所述融合模型包括映射层；所述将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型，得到训练融合特征，包括：通过所述映射层将所述内容提取特征映射至所述视频标识的语义表达特征所在的语义空间，得到所述内容提取特征对应的映射特征；融合所述映射特征和所述视频标识对应的语义表达特征，得到所述训练视频对应的训练融合特征；所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异，调整各个语义表达特征以及所述融合模型的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标融合模型，包括：基于所述第一差异，调整所述第一训练三元组对应的各个语义表达特征以及所述映射层的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标映射层。 3.根据权利要求2所述的方法，其特征在于，所述融合模型还包括关注度分配层；所述融合所述映射特征和所述视频标识对应的语义表达特征，得到所述训练视频对应的训练融合特征，包括：通过所述关注度分配层分别计算所述映射特征和所述视频标识的语义表达特征各自的关注度，得到所述映射特征对应的第一关注度以及与所述视频标识的语义表达特征对应的第二关注度；基于所述第一关注度对所述映射特征进行关注处理得到内容关注特征，基于所述第二关注度对所述视频标识的语义表达特征进行关注处理得到标识关注特征；拼接所述内容关注特征与所述标识关注特征，得到所述训练融合特征；所述基于所述第一差异，调整所述第一训练三元组对应的各个语义表达特征以及所述映射层的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标映射层，包括：权　利　要　求　书 1/6 页 2 CN 114329062 A 2基于所述第一差异，调整各个语义表达特征、所述映射层的模型参数以及所述关注度分配层的模型参数，得到调整后的各个目标语义表达特征、调整后的目标映射层以及调整后的目标关注度分配层。 4.根据权利要求1所述的方法，其特征在于，在所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异，调整各个语义表达特征以及所述融合模型的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标融合模型之前，所述方法还包括：获取替换融合特征；所述替换融合特征为其他训练视频对应的训练融合特征；基于所述替换融合特征与所述第一训练关系对应的语义表达特征，确定与所述第一训练关系对应的第二预测标签特征；所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异，调整各个语义表达特征以及所述融合模型的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标融合模型，包括：基于所述训练标签对应的语义表达特征与第二预测标签特征确定第二差异；基于所述第二差异以及所述第一差异之间的第一目标差异，调整各个语义表达特征以及所述融合模型的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标融合模型。 5.根据权利要求1所述的方法，其特征在于，在所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异，调整各个语义表达特征以及所述融合模型的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标融合模型之前，所述方法还包括：获取替换标签特征；所述替换标签特征为其他训练视频对应的训练标签所对应的语义表达特征；所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异，调整各个语义表达特征以及所述融合模型的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标融合模型，包括：基于所述第一预测标签特征和所述替换标签特征确定第三差异；基于所述第一差异以及所述第三差异之间的第二目标差异，调整各个语义表达特征以及所述融合模型的模型参数，得到调整后的各个目标语义表达特征以及调整后的目标融合模型。 6.根据权利要求1所述的方法，其特征在于，在所述将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型，得到训练融合特征之前，所述方法还包括：获取所述视频标识对应的关联内容；将所述关联内容输入已训练的且与所述关联内容对应的内容分类模型中，通过所述内容分类模型对所述关联内容提取用于分类的内容特征；将提取的用于分类的内容特征确定为与所述关联内容对应的内容提取特征。 7.根据权利要求6所述的方法，其特征在于，所述关联内容包括所述训练标识对应的视频帧、背景音乐以及关联文本之间的至少一种；各个不同的关联内容对应不同的内容分类权　利　要　求　书 2/6 页 3 CN 114329062 A 3

专利 视频标注方法、装置、计算机设备和计算机程序产品

专利视频标注方法、装置、计算机设备和计算机程序产品