(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111335783.5
(22)申请日 2021.11.12
(65)同一申请的已公布的文献号
申请公布号 CN 113779308 A
(43)申请公布日 2021.12.10
(73)专利权人 冠传网络科技 (南京) 有限公司
地址 210000 江苏省南京市 鼓楼区工农新
村288号-207
(72)发明人 不公告发明人
(51)Int.Cl.
G06F 16/75(2019.01)
G06F 16/783(2019.01)
G06V 20/40(2022.01)
G06V 40/70(2022.01)
G06V 10/80(2022.01)G06V 10/764(2022.01)
G06V 10/25(2022.01)
G06V 10/44(2022.01)
G06V 10/62(2022.01)
G06V 10/54(2022.01)
G06V 10/52(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
G06N 3/04(2006.01)
(56)对比文件
CN 113537206 A,2021.10.2 2
CN 109376 603 A,2019.02.2 2
审查员 李雪晴
(54)发明名称
一种短视频检测和多分类方法、 装置及存储
介质
(57)摘要
本发明公开了一种短视频检测和多分类方
法, 接收用户发送的短视频获取请求, 从所述短
视频中分离出短视频的视频图像帧以及该短视
频中的语音信息, 利用图像关键帧执行目标短视
频检测和识别, 构建多领域预警关键词库, 利用
两级关键词匹配实现预警短视频分类供用户查
看。 本发明利用图像处理技术和文本处理技术能
够准确提取短视频中的蕴含的有效信息, 提高短
视频识别的准确度; 并利用短视频中的图像帧、
文字信息和语音信息对短视频进行检测, 根据图
像帧中蕴含的图像信息可检测出目标短视频, 利
用短视频中的多种文字信息实现多类型的突发
预警短视频检测分类, 并运用两级关键词匹配规
则实现突发预 警短视频的分类, 提高了短视频的
分类多样性和准确性。
权利要求书3页 说明书8页 附图1页
CN 113779308 B
2022.02.25
CN 113779308 B
1.一种短视频检测 和多分类方法, 其特 征在于, 所述方法具体包括:
步骤1: 接收用户发送的短视频获取请求, 采用获取程序以消息队列请求的方式向短视
频平台或者短视频网络存 储数据库发送短视频获取请求, 并接收获取 结果;
步骤2: 采用短视频编辑软件从所述短视频中分离出短视频的视频图像帧以及该短视
频中的语音信息;
在提取视频图像帧之后, 还 包括执行如下步骤:
步骤2.1: 将获取的每个短视频划分为多个片段, 从每个片段中提取一个非边缘帧作为
视频图像关键帧;
步骤2.2: 将提取的多个视频图像关键帧构成该短视频的图像关键帧序列, 并作为该短
视频的图像 帧对应保存到数据库, 同时将对应的语音文件也对应保存到数据库, 并设置查
询索引;
步骤3: 执行目标短视频检测和识别, 首先判断图像关键帧对应的人脸数量是否满足阈
值条件, 若是, 则 利用图像关键帧的多种特 征信息判断该短视频 是否为目标短视频;
其中, 所述利用图像关键帧的多种特征信息判断该短视频是否为目标短视频, 具体包
括如下过程:
步骤3.1: 人体肤色区域检测和肤色特征提取: 利用人体肤色统计模型得到人体肤色区
域; 根据所述肤色区域, 从所述肤色区域中提取多个特征值作为特征向量, 其中特征值包
括: 肤色占整个图像的比例、 肤色连通区域的个数; 最大 连通区域占整个图像的比例;
步骤3.2: 人体姿态检测和特征提取: 计算连续两帧图像的帧差图像, 获取运动特征, 并
且与人体异常姿态特征库进行对比, 得到最接近的人体姿态, 并且将对应的直方图特征作
为人体姿态特 征;
其中所述人体异常姿态特征库采用如下方式构建: 根据多个目标动作短视频片段样
本, 计算连续两帧图像相减即得帧差图像, 得到运动变化的像素, 统计该像素直方图特征,
将所述直方图特 征构建为目标短视频动作特 征库;
步骤3.3: 将上述提取的人体肤色区域特征和人体姿态特征进行多特征融合, 并利用分
类器进行识别, 得到该图像关键帧是否为目标的帧图像, 并进行0和1的标识;
步骤3.4: 对每个短视频的多个图像关键帧执行上述过程, 并将识别结果与每个视频对
应保存;
步骤3.5: 根据短视频的所有图像关键帧的识别结果 来最终确定短视频的异常性;
步骤4: 对剔除了目标短视频的剩余短视频执行文字信 息的识别流程, 包括文本区域检
测定位和字符识别流 程;
其中, 所述文本区域检测定位为基于 Gabor 纹理特征和深度学习神经网络的两级文
本区域检测定位方式, 具体包括:
步骤4.1: 对短视频图像关键帧进行网格化处理, 具体为使用固定尺寸的网格分割 文字
子图像, 网格的大小取决于对特征图像的细化程度以及计算的实时性要求, 采用 N×N 个
像素的网格对特 征区域进行网格化, 每 个网格的中心点作为 Gabor 特征的采样点;
步骤4.2: 构建Gabor滤波器组, 利用不同方向和尺度下的 Gabor 特征来描述图像关键
帧中文字区域的方向性纹 理, 实现文字区域的初步检测;
步骤4.3: 将文字区域和非文字区域的 Gabor 特征输入到深度学习神经网络训练文字权 利 要 求 书 1/3 页
2
CN 113779308 B
2区域分类 器, 将上述训练好的分类 器用于图像关键帧文本区域的检测;
在检测到文本区域后, 对文字区域进行字符识别, 并保存为文本信 息, 其中字符识别方
式, 具体包括:
步骤4.4: 构建基于CRNN结合CTC ‑loss的文字识别模型, 并基于该模型对上述文本区域
结果进行文字识别, 获取有效的文字信息;
步骤4.5: 在得到每个视频的多个图像关键帧的文字识别结果后, 将所有识别的文字结
果进行去重合并后, 作为每 个短视频的文本信息, 对应保存;
步骤5: 构建多领域预警关键词库, 该预警关键词库是基于预先采集的多领域语料进行
训练得到的, 其中多领域关键词库对应多种短视频 预警类别;
步骤6: 将未检测出文字区域的短视频剔除, 对剩余的短视频进行突发预警分类识别,
利用基于两级关键词匹配识别算法, 即先利用文本关键词分词结果的哈希相似度比对, 再
利用基于 机器学习的关键词语义比对, 执 行预警短视频分类;
步骤7: 对上述分类短视频进行展示。
2.如权利要求1所述的短视频检测和多分类方法, 其特征在于: 其中, 所述利用人体肤
色统计模型 得到人体肤色区域, 包括如下 过程:
人体肤色统计模型构建如下: 将RGB颜色空间转换到HSV空间, 通过计算大量样本肤色
图片的H,S,V分量, 统计出H,S,V各分量平均值的分布范围及关系:
h1<H<h2; s1<S<s2; v1<V<v2; 其中h1,h2,s1,s2,v1,v2为各分量上的阈值;
人体肤色区域检测: 满足上述人体肤色统计模型的像素标记为1, 否则为0, 并获取人体
肤色连通区域。
3.如权利要求2所述的短视频检测和多分类方法, 其特征在于: 其中, 所述根据短视频
的所有图像关键帧的识别结果 来最终确定短视频的异常性, 包括如下步骤:
步骤3.5.1: 根据短视频的时间连续性, 若短视频的图像关键帧被标记为1, 则将该图像
关键帧及与其前后相邻的若干短视频图像关键帧表示成张量数据的形式;
步骤3.5.2: 通过分析提取张量数据的相 关性, 当相 关性较大时, 确定待检测短视频为
目标短视频, 并结束对待检测短视频的检测过程; 否则, 提取下一个短视频图像关键帧, 并
重复执行上述过程, 直到确定待检测短视频为目标短视频, 或者, 对 所有短视频图像关键帧
都进行了判断, 并确定待检测短视频中不 为目标短视频 。
4.如权利要求1所述的短视频检测和多分类方法, 其特征在于: 该多领域预警关键词库
是基于预先采集的多领域语料进行训练得到的, 其中, 训练语料通过采集多领域的历史预
警信息。
5.如权利要求1所述的短视频检测和多分类方法, 其特征在于: 其中, 所述先利用文本
关键词分词结果的哈希相似度比对, 再利用基于 机器学习的语义比对, 具体包括如下步骤:
步骤6.1: 获取 上述保存的每 个短视频的目标文本信息;
步骤6.2: 获取 上述目标文本信息的分词集 合;
步骤6.3: 计算所述分词集合中的各个分词的哈希值, 根据 所述分词集合中的分词的哈
希值生成与所述多领域预警关键词库中的关键词的相似度;
步骤6.4: 在所述相似度小于阈值时, 进行语义识别, 根据预设的机器学习概率模型提
取文本特征; 将所述文本特征作为输入, 根据所述预设的机器学习概率模型计算所述文本权 利 要 求 书 2/3 页
3
CN 113779308 B
3
专利 一种短视频检测和多分类方法、装置及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:00:45上传分享