全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210247508.6 (22)申请日 2022.03.14 (71)申请人 北京明略昭辉科技有限公司 地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人 赵波 胡郡郡 唐大闰  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 曾军 (51)Int.Cl. G06F 16/75(2019.01) G06F 16/783(2019.01) G06V 30/40(2022.01) G06V 10/80(2022.01) G06F 16/65(2019.01)G06N 3/04(2006.01) (54)发明名称 视频分类方法、 装置、 电子设备及存 储介质 (57)摘要 本发明提供了一种视频分类方法、 装置、 电 子设备及存储介质, 该方法包括: 获取待处理的 目标视频; 通过人工智能模型从所述目标视频中 识别出目标音频特征和视频帧特征; 将所述目标 音频特征作为预训练的特征分类模 型的输入, 得 到多种音频特征; 其中, 所述特征分类模型包括 多个并行分支模 型, 每个分支模 型由携带有一种 标签类型的音频特征样本训练卷积神经网络得 到; 根据所述多种音频特征和所述视频帧特征确 定所述目标视频的视频类别。 本发 明通过对目标 视频中的音频特征进行细粒度划分, 将得到的分 类结果结合目标视频的视频帧特征确定视频的 视频类别, 提高了 视频分类的准确率。 权利要求书2页 说明书9页 附图4页 CN 114647759 A 2022.06.21 CN 114647759 A 1.一种视频分类方法, 其特 征在于, 所述方法包括: 获取待处 理的目标视频; 通过人工智能模型从所述目标视频中识别出目标音频 特征和视频帧特 征; 将所述目标音频特征作为预训练的特征分类模型的输入, 得到多种 音频特征; 其中, 所 述特征分类模型包括多个并行分支模型, 每个分支模型由携带有一种标签的音频特征样本 训练卷积神经网络得到; 根据所述多种音频 特征和所述视频帧特 征确定所述目标视频的视频类别。 2.根据权利要求1所述的方法, 其特征在于, 所述通过人工智能模型从所述目标视频中 识别出目标音频 特征包括: 将所述目标视频输入基于语音识别的人工智能模型, 以对所述目标视频中包含的音频 帧进行识别, 得到音频帧序列; 绘制所述音频帧序列对应的语谱图; 通过将所述语谱图输入预设的卷积神经网络, 提取 所述目标音频 特征。 3.根据权利要求1所述的方法, 其特征在于, 所述通过人工智能模型从所述目标视频中 识别出视频帧特 征包括: 基于预设的抽帧策略从所述目标视频中抽取视频帧图像; 将所述视频帧图像作为基于图像分类的人工智能模型的输入, 得到所述视频帧特 征。 4.根据权利要求1所述的方法, 其特征在于, 所述将所述目标音频特征作为预训练的特 征分类模型的输入, 得到多种音频 特征, 通过以下 方式得到每一种音频 特征: 选定多个分支模型中没被选过的第 一分支模型, 所述第 一分支模型由携带有标签类型 为第一类标签的音频特征样本训练卷积神经网络得到, 将所述目标音频特征作为所述第一 分支模型 的输入, 经过卷积神经网络中的全连接层进行特征提取, 以从所述 目标音频特征 中分离出 标签类型为所述第一类标签的音频 特征。 5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述根据 所述多种 音频特征和 所述视频帧特 征确定所述目标视频的视频类别包括: 将所述多种音频特征中没被选过的第一音频特征和所述视频帧特征输入卷积神经网 络, 以进行 特征融合, 得到所述多种音频 特征对应的多个第一特 征; 将所述多个第 一特征输入逻辑 回归模型, 得到多个第 一权重; 其中, 所述第 一权重用于 表征每个音频特征对影响所述目标视频的视频类别的影响程度; 分别对每 个第一权 重与对应的音频 特征进行乘法运 算, 得到多个第二特 征; 对所述多个第二特 征进行求和运 算, 得到第三特 征; 将所述第三特 征标识为所述目标视频的视频类别。 6.根据权利要求3所述的方法, 其特征在于, 在基于预设的抽帧策略从所述目标视频中 抽取视频帧图像之后, 所述方法还 包括: 通过基于字符识别的人工智能模型对所述视频帧图像中的文本进行识别, 得到目标文 本; 利用Bert模型从所述目标文本中提取用于表征 所述目标文本的标签 类型的文本特 征。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述多种 音频特征和所述视频帧 特征确定所述目标视频的视频类别包括:权 利 要 求 书 1/2 页 2 CN 114647759 A 2将所述多种音频特征中没被选过的第二音频特征和所述视频帧特征输入卷积神经网 络, 以进行 特征融合, 得到所述多种音频 特征对应的多个第四特 征; 将所述多个第四特征输入逻辑 回归模型, 得到多个第 二权重; 其中, 所述第 二权重用于 表征每个音频特征对影响所述目标视频的视频类别的影响程度; 分别对每 个第二权 重与对应的音频 特征进行乘法运 算, 得到多个第五特 征; 对所述多个第五特 征进行求和运 算, 得到第六 特征; 通过对所述第六 特征、 所述文本特 征和所述视频帧特 征进行特征拼接, 生成第七特 征; 将所述第七特 征标识为所述目标视频的视频类别。 8.一种视频分类装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待处 理的目标视频; 识别模块, 用于通过人工智能模型从所述目标视频中识别出目标音频特征和视频帧特 征; 分类模块, 用于将所述目标音频特征作为预训练的特征分类模型的输入, 得到多种音 频特征; 其中, 所述特征分类模型包括多个并行分支模型, 每个 分支模型由携带有一种标签 类型的音频 特征样本训练卷积神经网络得到; 确定模块, 用于根据 所述多种 音频特征和所述视频帧特征确定所述目标视频的视频类 别。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至7中任一项所 述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114647759 A 3

.PDF文档 专利 视频分类方法、装置、电子设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频分类方法、装置、电子设备及存储介质 第 1 页 专利 视频分类方法、装置、电子设备及存储介质 第 2 页 专利 视频分类方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:23:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。